TBC (TigraNAV Book Collection)
TigraNAV Book Collection (далее TBC) - это моя личная библиотека электронных книг, собранная на просторах интернета для личных некомерческих нужд.
Библиотека собирается с помощью самописного скрипта, написанного на Perl под OpenSUSE 11.1 с ипользованием СУБД MySQL.
Задача скрипта :
- Удаление дублей книг из входных файлов
- Создание “обложки” книги из первой страницы (первого изображения книги для PDF)
- Извлечение текстового слоя (при наличии)
- Извлечение метаинформации (при наличии)
- Формирование репозитория книг в соответствии с внутренней структурой.
В данный момент скрипт обрабатывает только книги PDF и DJVU (в последствии подумаю о CHM,DOC,txt и др).
Источники книг:
Различные библиотеки из интернета: В настоящее время скормлены следующие библиотеки.
HomeLab (CD 1-173)
Infanata 2005 - 9,10,11,12; 2006 - 1,2,12; 2007 - 1,2,9,11
Большая библиотека научно-технической информации (DVD - 59-69)
