Текстовые базы ИС «Ёшкин Кот» [10.08.2017]

Автор
Сообщение

Зазипуй

Top Loader 04* 1TB

Стаж: 10 лет 4 месяца

Сообщений: 246

flag

Зазипуй · 14-Янв-14 22:50 (4 года 7 месяцев назад)

niks2 писал(а):
62536785Зазипуй, сообщи, пожалуйста сколько файлов в этой раздаче, просто их количество в штуках. Сутки шла распаковка, окончание было без меня и комп не я выключал - есть сомнения. Самое простое проверить для меня - посмотреть физически сколько в папке файлов. Вообще полезная цифра для многих.
База №0 16.2/17.1 Гб, 450 181 файлов, 30 645 папок
База №1 12.0/13.4 Гб, 480 366 файлов, 24 009 папок
База №2 749/755 Гб, 3 028 122 файлов, 80 509 папок

black_hall

Стаж: 10 лет 10 месяцев

Сообщений: 2

flag

black_hall · 15-Янв-14 07:47 (спустя 8 часов)

Где бы почитать про структуру вашей базы, т.к. она прилично изменилась.
Код у вас абсолютно нечитабельный (+ perl), а мне нужно перевести все это добро на php и ajax.
Спасибо.

Зазипуй

Top Loader 04* 1TB

Стаж: 10 лет 4 месяца

Сообщений: 246

flag

Зазипуй · 15-Янв-14 08:55 (спустя 1 час 7 мин.)

black_hall писал(а):
62542349Где бы почитать про структуру вашей базы, т.к. она прилично изменилась.
Структура базы подробно расписана в комментариях к каждому столбцу данных. Откройте базу любым SQL клиентом для просмотра структуры и комментариев.

niks2

Стаж: 10 лет 4 месяца

Сообщений: 53

flag

niks2 · 16-Янв-14 13:05 (спустя 1 день 4 часа)

Зазипуй, в базе№2 много сканов всяких печатных изданий. На документы органов государственной власти авторских прав нет. А вот на документы всяких иных организаций, проектных институтов и пр. наверное распространяются их исключительные и авторские права. База №2 нарушает все же чьи то права или нет, твое мнение? Если да, то на какие документы в первую очередь?

Dmitri07

Стаж: 9 лет 6 месяцев

Сообщений: 9

flag

Dmitri07 · 23-Янв-14 10:46 (спустя 6 дней)

niks2 писал(а):
62556740Зазипуй, в базе№2 много сканов всяких печатных изданий. На документы органов государственной власти авторских прав нет. А вот на документы всяких иных организаций, проектных институтов и пр. наверное распространяются их исключительные и авторские права. База №2 нарушает все же чьи то права или нет, твое мнение? Если да, то на какие документы в первую очередь?
Очень правильный вопрос!

-Pacifist-

Стаж: 9 лет 1 месяц

Сообщений: 47

flag

-Pacifist- · 24-Янв-14 21:02 (спустя 1 день 10 часов, ред. 24-Янв-14 21:02)

Зазипуй
есть предложение, из базы Data2 выделить типовые проектные серии в Data3 (серии и типовые проекты)
их почти 25000

4ainiс

Стаж: 5 лет 6 месяцев

Сообщений: 16

flag

4ainiс · 28-Янв-14 17:47 (спустя 3 дня)

права в топку!
полезная вещь, все бы скачал, но увы и ах, боюсь что пока буду качать архив он сто раз изменится
автору почет и уважуха, но было бы еще больше почета и уважухи, если бы автор продумал систему хранения и обновлений...
поясню, например взять ГОСТ 8509-86 он сам по себе не менялся, а только пересматривался в 93г и был заменен на 8509-93, понятно, что архивировать всю базу скопом это просто и удобно, но не практично...
есть предложение разбить базу на более мелкие/тематические/самостоятельные куски. например сгруппировать ГОСТы по годам и уже в таком виде упаковывать, т.е. допустим берем ГОСТы за 1986 год и пакуем их в архив gost1986.rar (ну идея понятна) бонусы очевидны:
1) файлы не меняются, следовательно архивы тоже меняться не будут, меньше трафик с организатора раздачи, нет необходимости перекачивать всем всю базу
2) размер таких архивов будет наверняка меньше, чем сейчас
да и размер кусков в торренте желательно делать поменьше скажем 1-2МБ
можно еще разделить сами базы на три разные торрента: один торрент-одна база

XTRusr

Стаж: 11 лет

Сообщений: 58

flag

XTRusr · 28-Янв-14 21:42 (спустя 3 часа)

4ainiс, этот архив и не будет меняться, все успеют скачать: прочитайте в шапке про то, как обновления выполняются. А в соседнем торренте каждое обновление новым архивом, так что перекачивать старое не придётся. Имхо, продумано неплохо.
Может быть, текущий вариант и можно как-то по-другому организовать, но только не по годам. Не могу представить, кому может понадобиться скачать ГОСТы только за определённый год. Кроме того, я почти уверен, что при простом пересмотре ГОСТа в базе отсутствуют две копии одних и тех же файлов.
А по поводу размера кусков в торренте - опять же, Зазипуй писал, что всё дело в ограничениях рутрекера на общий размер торрент-файла. В текущем варианте удалось уложиться в нужный размер - и хорошо.

niks2

Стаж: 10 лет 4 месяца

Сообщений: 53

flag

niks2 · 29-Янв-14 14:58 (спустя 17 часов)

А по мне так все нормально сделано. 160 архивов - куда больше дробить

4ainiс

Стаж: 5 лет 6 месяцев

Сообщений: 16

flag

4ainiс · 03-Фев-14 19:05 (спустя 5 дней)

XTRusr писал(а):
627290214ainiс, этот архив и не будет меняться, все успеют скачать: прочитайте в шапке про то, как обновления выполняются. А в соседнем торренте каждое обновление новым архивом, так что перекачивать старое не придётся. Имхо, продумано неплохо.
в шапке написано "(Перезалит 02.01.2014 г.)", т.е. как я понял поменялись архивы, а по поводу все успеют скачать, я бы так не стал говорить, вы видели размер второй базы 700ГБ вряд ли найдется куча желающих качать такой объем и не у всех есть такая возможность.
просто очевидно, что у автора есть возможность и желание поделится столь полезной информацией, но может он не до конца осознает то что чем больше торент и кусок тем сложнее его выкачивать, особенно если мало у кого есть полная копия, тора, в результате большинство качают именно с него по многу раз одно и тоже. опять же пока кусок не докачается он недоступен для других!!! вот например сейчас стоит на скачивании сериал светофор, размер 30ГБ, размер куска 16МБ в списке начатых кусков около сотни и у большинства из них 1-2блока скачало из 1024 а что будет с 700ГБ в вообще молчу. в прошлом году качал сборник вижуал студио, месяца 4-5ушло...
XTRusr писал(а):
62729021Может быть, текущий вариант и можно как-то по-другому организовать, но только не по годам. Не могу представить, кому может понадобиться скачать ГОСТы только за определённый год. Кроме того, я почти уверен, что при простом пересмотре ГОСТа в базе отсутствуют две копии одних и тех же файлов.
я не могу себе представить, чтобы кому-то потребовали сразу все ГОСТы
почему по годам - легко рассортировать с помощью тех же скриптов. по поводу "что при простом пересмотре ГОСТа в базе отсутствуют две копии одних и тех же файлов." не совсем вас понял, точнее не понял совсем. если гос пересматривается, то по моему уме присваивается новое название: например был ГОСТ 8509-86 пересмотрели приняли ГОСТ 8509-93 на замену старого, отсюда следует один важный вывод, архив в котором лежат госты за один год в последующих годах вообще никогда не будет меняться!
XTRusr писал(а):
62729021А по поводу размера кусков в торренте - опять же, Зазипуй писал, что всё дело в ограничениях рутрекера на общий размер торрент-файла. В текущем варианте удалось уложиться в нужный размер - и хорошо.
это правило легко обойти, выложить торрент на торрент и все кстати это очень хороший выход! а сам первичный торрент с маленькими кусочками можно запаковать в архив + инфа для восстановления 5%
опять же разбив базу на три торрента, получим у каждого свой размер куска... но увы и ах, все зависит от возможности и желания автора.
ЗЫ: не хочу здесь разводить пустую полемику и на чем то настаивать, я лишь высказал свое мнение. а автору безусловно большое спасибо за доброе дело

Bujhm666

Стаж: 8 лет 5 месяцев

Сообщений: 10

flag

Bujhm666 · 04-Фев-14 14:54 (спустя 19 часов)

Имхо, текущий вариант вполне нормальный (основные базы + обновления). Вы считаете, что автору больше заняться нечем, только по 100 раз 700 гигабайт тусовать, как ему удобнее, так и делает.
Тем у кого не идет на Linux, надо просто разобраться с путями и поправить окончания строк в скриптах на Unix формат.
У меня установлено на сервере под Debian, раздает на всю организацию, народ очень доволен.

XTRusr

Стаж: 11 лет

Сообщений: 58

flag

XTRusr · 04-Фев-14 20:54 (спустя 6 часов, ред. 04-Фев-14 20:54)

4ainiс писал(а):
62810241в шапке написано "(Перезалит 02.01.2014 г.)", т.е. как я понял поменялись архивы, а по поводу все успеют скачать, я бы так не стал говорить, вы видели размер второй базы 700ГБ вряд ли найдется куча желающих качать такой объем и не у всех есть такая возможность.
Да, архивы поменялись по сравнению со старым вариантом базы (когда была одна раздача для базы 0, а вторая для базы 1). Теперь первая раздача для неизменяемого гиперархива более 700 ГБ (Гигабайт, я в курсе), а вторая для обновлений этого архива.
4ainiс писал(а):
вот например сейчас стоит на скачивании сериал светофор, размер 30ГБ, размер куска 16МБ в списке начатых кусков около сотни и у большинства из них 1-2блока скачало из 1024
Что-то у вас с торрент-клиентом не то, у меня такого не бывает никогда. Клиент не пытается начать скачивать сотню блоков сразу, есть какой лимит (подозреваю, что в расширенных настройках).
4ainiс писал(а):
я не могу себе представить, чтобы кому-то потребовали сразу все ГОСТы
В крупной организации могут потребоваться многие ГОСТы, и администратор не может все предугадать. А когда на рабочих местах интернет ограничен, или его вообще нет, то база становится очень удобной.
4ainiс писал(а):
по поводу "что при простом пересмотре ГОСТа в базе отсутствуют две копии одних и тех же файлов." не совсем вас понял, точнее не понял совсем. если гос пересматривается, то по моему уме присваивается новое название: например был ГОСТ 8509-86 пересмотрели приняли ГОСТ 8509-93 на замену старого, отсюда следует один важный вывод, архив в котором лежат госты за один год в последующих годах вообще никогда не будет меняться!
Объясняю. ГОСТ XXXX-YY из 20 страниц хранится в папке 10201 (к примеру). В этой папке находятся 20 файлов gif (0.gif ... 19.gif). В базе (или в локальном списке) есть ссылка, что ГОСТ XXXX-YY в такой-то папке. Далее, ГОСТ заменяется на другой. В базе старая ссылка обновляется, и создаётся новая ссылка на ту же папку (если номер ГОСТа изменился). При этом страницы ГОСТа помещаются в ту же папку 10201 (старый тем самым затирается). Естественно, могут остаться лишние файлы (если в новом ГОСТе количество листов меньше). Также ГОСТ может быть просто отменён, тогда он в файлах останется тоже. Но таких случаев мало, думаю.
4ainiс писал(а):
это правило легко обойти, выложить торрент на торрент и все кстати это очень хороший выход! а сам первичный торрент с маленькими кусочками можно запаковать в архив + инфа для восстановления 5%
Не уверен, что такое разрешено правилами трекера.
В общем, если и дробить архив на базы, то по каким-то другим критериям, не по годам. Мне, например, тоже база 2 целиком ни к чему.

yk-40

Стаж: 8 лет 7 месяцев

Сообщений: 3

flag

yk-40 · 05-Фев-14 05:50 (спустя 8 часов)

При распаковке База №2 от 01.12.2013
антивирус DRWEB выдал сообщение :
Объект: "F:\ecat\data2\1\4294813\4294813478.pdf" (неизвестно)
Тип: инфицирован
Инфекция: Exploit.PDF.1328
Результат: удален

-Pacifist-

Стаж: 9 лет 1 месяц

Сообщений: 47

flag

-Pacifist- · 05-Фев-14 14:16 (спустя 8 часов)

yk-40 писал(а):
62828827При распаковке База №2 от 01.12.2013
антивирус DRWEB выдал сообщение :
Объект: "F:\ecat\data2\1\4294813\4294813478.pdf" (неизвестно)
Тип: инфицирован
Инфекция: Exploit.PDF.1328
Результат: удален
касперский 2014 (KIS) ничего не показал

yk-40

Стаж: 8 лет 7 месяцев

Сообщений: 3

flag

yk-40 · 05-Фев-14 14:27 (спустя 10 мин., ред. 05-Фев-14 14:27)

-Pacifist- писал(а):
62832715
yk-40 писал(а):
62828827При распаковке База №2 от 01.12.2013
антивирус DRWEB выдал сообщение :
Объект: "F:\ecat\data2\1\4294813\4294813478.pdf" (неизвестно)
Тип: инфицирован
Инфекция: Exploit.PDF.1328
Результат: удален
касперский 2014 (KIS) ничего не показал
Можете данный файл data2\1\4294813\4294813478.pdf выложить отдельно в интернет и дать ссылку для анализа

-Pacifist-

Стаж: 9 лет 1 месяц

Сообщений: 47

flag

-Pacifist- · 05-Фев-14 19:26 (спустя 4 часа)

yk-40 писал(а):
62832792
-Pacifist- писал(а):
62832715
yk-40 писал(а):
62828827При распаковке База №2 от 01.12.2013
антивирус DRWEB выдал сообщение :
Объект: "F:\ecat\data2\1\4294813\4294813478.pdf" (неизвестно)
Тип: инфицирован
Инфекция: Exploit.PDF.1328
Результат: удален
касперский 2014 (KIS) ничего не показал
Можете данный файл data2\1\4294813\4294813478.pdf выложить отдельно в интернет и дать ссылку для анализа
вот ссылка http://files.mail.ru/C2D39CF340A5481EBA3D5EBBA9890C78

yk-40

Стаж: 8 лет 7 месяцев

Сообщений: 3

flag

yk-40 · 06-Фев-14 11:45 (спустя 16 часов, ред. 06-Фев-14 14:34)

Можете проверить документ присутствует в базе такой :
Приказ Ростехнадзора от 12.03.2013 N 101 "Об утверждении Федеральных норм и правил в области промышленной безопасности "Правила безопасности в нефтяной и газовой промышленности" (Зарегистрировано в Минюсте России 19.04.2013 N 28222)
На сайте нет (вроде) http://files.stroyinf.ru/

popov_al

Top Bonus 01* 300GB

Стаж: 10 лет 4 месяца

Сообщений: 477

flag

popov_al · 06-Фев-14 19:56 (спустя 8 часов)

yk-40 писал(а):
62844700Можете проверить документ присутствует в базе такой :
Приказ Ростехнадзора от 12.03.2013 N 101 "Об утверждении Федеральных норм и правил в области промышленной безопасности "Правила безопасности в нефтяной и газовой промышленности" (Зарегистрировано в Минюсте России 19.04.2013 N 28222)
На сайте нет (вроде) http://files.stroyinf.ru/
база по состоянию на 1 апреля 2013г.
так что более поздних доков точно нет

Зазипуй

Top Loader 04* 1TB

Стаж: 10 лет 4 месяца

Сообщений: 246

flag

Зазипуй · 07-Фев-14 16:05 (спустя 20 часов, ред. 07-Фев-14 16:05)

yk-40 писал(а):
На сайте нет (вроде) http://files.stroyinf.ru/
4294813478.pdf
yk-40 писал(а):
62828827При распаковке База №2 от 01.12.2013
антивирус DRWEB выдал сообщение :
Объект: "F:\ecat\data2\1\4294813\4294813478.pdf" (неизвестно)
Тип: инфицирован
Инфекция: Exploit.PDF.1328
Результат: удален
Проверил nod32 - вирусов нет.
Все PDF файлы конструировал своей программой из сканов созданных другой своей программой, т.е. вариант случайного включения в базу одного вирусного файла исключён.
Значит, либо drweb ошибся, либо файл был инфицирован после скачивания.

4ainiс

Стаж: 5 лет 6 месяцев

Сообщений: 16

flag

4ainiс · 09-Фев-14 00:35 (спустя 1 день 8 часов)

XTRusr писал(а):
62824611
4ainiс писал(а):
62810241в шапке написано "(Перезалит 02.01.2014 г.)", т.е. как я понял поменялись архивы, а по поводу все успеют скачать, я бы так не стал говорить, вы видели размер второй базы 700ГБ вряд ли найдется куча желающих качать такой объем и не у всех есть такая возможность.
Да, архивы поменялись по сравнению со старым вариантом базы (когда была одна раздача для базы 0, а вторая для базы 1). Теперь первая раздача для неизменяемого гиперархива более 700 ГБ (Гигабайт, я в курсе), а вторая для обновлений этого архива.
4ainiс писал(а):
вот например сейчас стоит на скачивании сериал светофор, размер 30ГБ, размер куска 16МБ в списке начатых кусков около сотни и у большинства из них 1-2блока скачало из 1024
Что-то у вас с торрент-клиентом не то, у меня такого не бывает никогда. Клиент не пытается начать скачивать сотню блоков сразу, есть какой лимит (подозреваю, что в расширенных настройках).
4ainiс писал(а):
я не могу себе представить, чтобы кому-то потребовали сразу все ГОСТы
В крупной организации могут потребоваться многие ГОСТы, и администратор не может все предугадать. А когда на рабочих местах интернет ограничен, или его вообще нет, то база становится очень удобной.
4ainiс писал(а):
по поводу "что при простом пересмотре ГОСТа в базе отсутствуют две копии одних и тех же файлов." не совсем вас понял, точнее не понял совсем. если гос пересматривается, то по моему уме присваивается новое название: например был ГОСТ 8509-86 пересмотрели приняли ГОСТ 8509-93 на замену старого, отсюда следует один важный вывод, архив в котором лежат госты за один год в последующих годах вообще никогда не будет меняться!
Объясняю. ГОСТ XXXX-YY из 20 страниц хранится в папке 10201 (к примеру). В этой папке находятся 20 файлов gif (0.gif ... 19.gif). В базе (или в локальном списке) есть ссылка, что ГОСТ XXXX-YY в такой-то папке. Далее, ГОСТ заменяется на другой. В базе старая ссылка обновляется, и создаётся новая ссылка на ту же папку (если номер ГОСТа изменился). При этом страницы ГОСТа помещаются в ту же папку 10201 (старый тем самым затирается). Естественно, могут остаться лишние файлы (если в новом ГОСТе количество листов меньше). Также ГОСТ может быть просто отменён, тогда он в файлах останется тоже. Но таких случаев мало, думаю.
4ainiс писал(а):
это правило легко обойти, выложить торрент на торрент и все кстати это очень хороший выход! а сам первичный торрент с маленькими кусочками можно запаковать в архив + инфа для восстановления 5%
Не уверен, что такое разрешено правилами трекера.
В общем, если и дробить архив на базы, то по каким-то другим критериям, не по годам. Мне, например, тоже база 2 целиком ни к чему.

CatanaKC

Стаж: 9 лет 4 месяца

Сообщений: 33

flag

CatanaKC · 20-Фев-14 18:55 (спустя 11 дней)

-Pacifist- писал(а):
62673854Зазипуй
есть предложение, из базы Data2 выделить типовые проектные серии в Data3 (серии и типовые проекты)
их почти 25000
Как я понял, что можно распаковать архивы и удалить не нужное?
После распаковки понятно где именно находятся типовые проекты и серии? и сколько они занимаю места?
Но лучше конечно было бы выделить в отдельную базу.

Happydi

Стаж: 4 года 5 месяцев

Сообщений: 2

flag

Happydi · 03-Мар-14 14:15 (спустя 10 дней)

Зазипуй добрый день, подскажите, а есть ли какая нибудь возможность интеграции данной базы и IIS 8.0. Пытался по описанию настроить, но то так ничего и не вышло. У меня имеется сайт на joomla 2.5 который крутиться на IIS 8 во внутренней сети, хотел либо сделать госты отдельным ресурсом, либо подцепить к имеющемуся ресурсу.
Заранее благодарен за ответ)))))))

Зазипуй

Top Loader 04* 1TB

Стаж: 10 лет 4 месяца

Сообщений: 246

flag

Зазипуй · 04-Мар-14 17:50 (спустя 1 день 3 часа)

С IIS не работал, но в сети полно статей как настроить IIS на работу с ActivePerl. Единственное, в чём может возникнуть сложность, это правила преобразования адресов - пример в файле httpd.conf для модуля mod_rewrite web-сервера Apache придётся переделывать под синтаксис конфига IIS (там всего несколько строк кода).

Happydi

Стаж: 4 года 5 месяцев

Сообщений: 2

flag

Happydi · 06-Мар-14 07:36 (спустя 1 день 13 часов)

К сожалению с кодом возникли проблемы =( perl подвязал с IIS, но запустить не получается((((

afetis

Стаж: 9 лет 8 месяцев

Сообщений: 1

flag

afetis · 06-Мар-14 11:13 (спустя 3 часа, ред. 06-Мар-14 11:13)

Под IIS 7.5 работает. Правила для апача надо импортировать в rewrite mod под iis и добавить еще одно ( Шаблон ^Index([0-9]*)/[0-9]+/([ecat.cgi?])* менять на ecat.cgi?* ). Happydi, где затык? Скрипты положи в корневую директорию сайта, без подпапок.

Dmitri07

Стаж: 9 лет 6 месяцев

Сообщений: 9

flag

Dmitri07 · 03-Апр-14 08:30 (спустя 27 дней)

Почему так много пустых категорий? В очень многих категориях отсутствуют документы в принципе...?

rasch

Стаж: 10 лет 1 месяц

Сообщений: 25

flag

rasch · 18-Авг-14 10:00 (спустя 4 месяца 15 дней)

В Августе должно много ГОСТов обновится (знакомый нормоконтролер сообщил)
Будет ли после этого обновлен состав ГОСТов?

nikonplus

Стаж: 8 лет 8 месяцев

Сообщений: 15

flag

nikonplus · 31-Авг-14 09:21 (спустя 12 дней, ред. 01-Сен-14 12:57)

До 12 года скачивал обновления для базы гостов в формате Update m0 v11 from 19.06.12 to 07.11.12 (это последнее)
Сечас что-бы обновить где найти обновления? Вопрос снят
Разобрался, обновления внутри раздачи, содержание торента изменилось и формат обновления.

a123-flex

Стаж: 10 лет 9 месяцев

Сообщений: 21

flag

a123-flex · 05-Окт-14 00:23 (спустя 1 месяц 4 дня, ред. 05-Окт-14 00:23)

Посмотрел на содержимое базы: графические файлы, возник вопрос: почему храните чб графику в gif вместо телеграфного тифа (CCITT Group4) ? При одинаковых настройках телеграфный тиф вдвое компактней... Перегонять нужно finereader-ом
Соответственно вопрос: возможно ли перенастроить систему на тиф ?
Ну и вопрос 3 почему как базовый выбран pdf а не djvu со слоем ocr - он сохраняет вид документа и дает полный серч в нем ?
Кстати 11 finereader умеет выгонять документ напрямую в djvu, кроме того, есть прямые конверторы (в том числе с повышающим resampling-ом) pdf-djvu. Но к сожалению там потребуется дополнительно интегрировать ocr слой, что также возможно.

CatanaKC

Стаж: 9 лет 4 месяца

Сообщений: 33

flag

CatanaKC · 08-Дек-14 21:33 (спустя 2 месяца 3 дня, ред. 12-Дек-14 13:15)

Видео инструкция - Установка базы нормативов
http://youtu.be/y01FLc9JAwQ
 
All rights reserved © 2017
Loading...
Error