Процесс сборки библиотеки идет полным ходом. Отобрано уже 31500 книг.
В процессе работы постоянно дорабатывается скрипт. На текущий момент у него версия 1.15.
Из последних изменений:
* Добавлен порог обработки файлов. то есть если файл больше, допустим, 70МБ, то он не обрабатывается, т.к. книг такого размера очень мало. В последствии будет обрабатываться вручную.
* Добавлено условие по содержанию файлов в архиве. Если в архиве кроме книги еще более 1го файла, то отправляем данный архив на ручную обработку. Это обосновано тем, что если в архиве кроме одного файла (обычно рекламма), то это скорее всего полезные файлы и их нужно обработать вручную.
* Добавлено сохранение имен архивов в отдельной таблице. Это может быть полезно при дальнейшем анализе книги - в одном из названий может быть полезная информация : название, количество страниц, издательство и т.п.
* Название файла книги может измениться в процессе обработки. Берется самое длинное имя между имени книги и имени архива. Часто бывает что архив написан по русски и несет значительно больше информации чем файл книги (особенно это актуально для инфанаты/натахауса.