TBC (TigraNAV Book Collection)

TigraNAV Book Collection (далее TBC) - это моя личная библиотека электронных книг, собранная на просторах интернета для личных некомерческих нужд.

Библиотека собирается с  помощью самописного скрипта, написанного на Perl под OpenSUSE 11.1 с ипользованием СУБД MySQL.

Задача скрипта :

  1. Удаление дублей книг из входных файлов
  2. Создание “обложки” книги из первой страницы (первого изображения книги для PDF)
  3. Извлечение текстового слоя (при наличии)
  4. Извлечение метаинформации (при наличии)
  5. Формирование репозитория книг в соответствии с внутренней структурой.

В данный момент скрипт обрабатывает только книги PDF и DJVU (в последствии подумаю о CHM,DOC,txt и др).

Источники книг:

Различные библиотеки из интернета: В настоящее время скормлены следующие библиотеки.

HomeLab (CD 1-173)

Infanata 2005 -  9,10,11,12;  2006 - 1,2,12; 2007 - 1,2,9,11

Большая библиотека научно-технической информации (DVD - 59-69)