Теги записей ‘Книгомания’

Торрентс.ру поменял адрес закачки торрентов.

Дата: Ноябрь 2, 2009 - 1:14 дп No Comments

На днях у меня перестали выкачиваться на автомате торренты с торрентс.ру. После детального разбора оказалось, что они поменяли источник загрузки torrent-файлов. Пришлось переписать функцию скачки torrent-файлов.

Поток восстановлен… а место уже качается… Придется подключать жесткий диск по USB-интерфейсу… и сливать туда что то. А может Док-станцию где нить взять и вставлять по мере необходимости туда диски, заполнять и откладывать.

Процесс идет.

Дата: Май 21, 2009 - 10:14 пп No Comments

Процесс сборки библиотеки идет полным ходом. Отобрано уже 31500 книг.

В процессе работы постоянно дорабатывается скрипт. На текущий момент у него версия 1.15.

Из последних изменений:

* Добавлен порог обработки файлов. то есть если файл больше, допустим, 70МБ, то он не обрабатывается, т.к. книг такого размера очень мало. В последствии будет обрабатываться вручную.

* Добавлено условие по содержанию файлов в архиве. Если в архиве кроме книги еще более 1го файла, то отправляем данный архив на ручную обработку. Это обосновано тем, что если в архиве кроме одного файла (обычно рекламма), то это скорее всего полезные файлы и их нужно обработать вручную.

* Добавлено сохранение имен архивов в отдельной таблице. Это может быть полезно при дальнейшем анализе книги – в одном из названий может быть полезная информация : название, количество страниц, издательство и т.п.

* Название файла книги может измениться в процессе обработки. Берется самое длинное имя между имени книги и имени архива. Часто бывает что архив написан по русски и несет значительно больше информации чем файл книги (особенно это актуально для инфанаты/натахауса.

Скрипт для findISBN

Дата: Май 16, 2009 - 8:12 пп No Comments

Те кто увлекается собиранием книжек наверняка сталкивались с программой findISBN, которая ищет в книжках ISBN номера, а также название книги по ним в различных веб-библиотеках. В результате ее работы рядо с книжкой появляются  файлы с номерами ISBN и списком найденых названий.

Для того чтобы это собрать в одном CSV файле необходимую информацию и служит скрипт который был написам по просьбе Bill_G.

Его алгоритм.

Ищет все файлы с раширением ISBN, читает первые 4 сточки их него, потом берет 4 сточки из файла с расширением NameBook для этой книжки и первую строчку их файла txt для этой книжки. Из полученных данных форует сроку с разделитлем и пишет ее в файл.

В последствии этот файл можно где-нибудь обработать.

Сам скрипт: Скачать

Начал формировать свою коллекцию книг (TBC)

Дата: Май 14, 2009 - 9:39 пп No Comments

Сегодня начал формировать свою коллекцию книг.

Первым этапом – обрабока скачанных библиотек (HomeLab,Infanata,Ihtnik и др.).

Задачи первого этапа:

  1. Убрать дубли и пересечении библиотек и сборок.
  2. получить обложку книжки (первая страница книги)
  3. Получить метаинформацию о файле
  4. Получить текстовый слой (при наличии)

Вторым этапом – описание книг. Описание будет браться из других библиотек и веб-сайтов.

Третим этапом попробую распознать некоторые книги на наличие дополнительной информации – описание, оглавления и т.п.

Выносим граббер инфанаты на сервер.

Дата: Март 31, 2009 - 3:46 дп No Comments

Сегодня вынес скрипты граббинга инфанаты с локальной машины в интернет на хостинг. Это позволить постоянно мониторить появление новых описаний, да и увеличит скорость обращения к инфанате.

Книгомания – парсер Инфанаты.

Дата: Март 12, 2009 - 6:49 дп No Comments

В предыдущем посте я озвучил проблему описания большого количества книг. Как один из путей повышения скорости описания я вскольз упоминул о возможности выдрать описания с какой либо онлайновской библиотеки, например, инфанаты. Что-ж, сказано – приступил к реализации.

(далее…)