Теги записей ‘Книгомания’

Торрентс.ру поменял адрес закачки торрентов.

Дата: Ноябрь 2, 2009 - 1:14 дп No Comments

На днях у меня перестали выкачиваться на автомате торренты с торрентс.ру. После детального разбора оказалось, что они поменяли источник загрузки torrent-файлов. Пришлось переписать функцию скачки torrent-файлов.

Поток восстановлен… а место уже качается… Придется подключать жесткий диск по USB-интерфейсу… и сливать туда что то. А может Док-станцию где нить взять и вставлять по мере необходимости туда диски, заполнять и откладывать.

Процесс идет.

Дата: Май 21, 2009 - 10:14 пп No Comments

Процесс сборки библиотеки идет полным ходом. Отобрано уже 31500 книг.

В процессе работы постоянно дорабатывается скрипт. На текущий момент у него версия 1.15.

Из последних изменений:

* Добавлен порог обработки файлов. то есть если файл больше, допустим, 70МБ, то он не обрабатывается, т.к. книг такого размера очень мало. В последствии будет обрабатываться вручную.

* Добавлено условие по содержанию файлов в архиве. Если в архиве кроме книги еще более 1го файла, то отправляем данный архив на ручную обработку. Это обосновано тем, что если в архиве кроме одного файла (обычно рекламма), то это скорее всего полезные файлы и их нужно обработать вручную.

* Добавлено сохранение имен архивов в отдельной таблице. Это может быть полезно при дальнейшем анализе книги - в одном из названий может быть полезная информация : название, количество страниц, издательство и т.п.

* Название файла книги может измениться в процессе обработки. Берется самое длинное имя между имени книги и имени архива. Часто бывает что архив написан по русски и несет значительно больше информации чем файл книги (особенно это актуально для инфанаты/натахауса.

Скрипт для findISBN

Дата: Май 16, 2009 - 8:12 пп No Comments

Те кто увлекается собиранием книжек наверняка сталкивались с программой findISBN, которая ищет в книжках ISBN номера, а также название книги по ним в различных веб-библиотеках. В результате ее работы рядо с книжкой появляются  файлы с номерами ISBN и списком найденых названий.

Для того чтобы это собрать в одном CSV файле необходимую информацию и служит скрипт который был написам по просьбе Bill_G.

Его алгоритм.

Ищет все файлы с раширением ISBN, читает первые 4 сточки их него, потом берет 4 сточки из файла с расширением NameBook для этой книжки и первую строчку их файла txt для этой книжки. Из полученных данных форует сроку с разделитлем и пишет ее в файл.

В последствии этот файл можно где-нибудь обработать.

Сам скрипт: Скачать

Начал формировать свою коллекцию книг (TBC)

Дата: Май 14, 2009 - 9:39 пп No Comments

Сегодня начал формировать свою коллекцию книг.

Первым этапом - обрабока скачанных библиотек (HomeLab,Infanata,Ihtnik и др.).

Задачи первого этапа:

  1. Убрать дубли и пересечении библиотек и сборок.
  2. получить обложку книжки (первая страница книги)
  3. Получить метаинформацию о файле
  4. Получить текстовый слой (при наличии)

Вторым этапом - описание книг. Описание будет браться из других библиотек и веб-сайтов.

Третим этапом попробую распознать некоторые книги на наличие дополнительной информации - описание, оглавления и т.п.

Мой репозитарий книг.

Дата: Май 7, 2009 - 5:59 дп No Comments

Я уже писал ранее, что взялся за скачку книг из инета и составления своего репозитария книг. Для этого я должен написать скрипт, формирующий репозитарий в удобной форме.

Потратив некоторое время получился скрипт, который вскоре начнет формировать мой репозитарий.

Его основные возможности:

1 РАспаковывает запакованные книги

2 Достает текстовый слой

3 Выдирает первую страницу и конвертирует ее в JPG

4 Выдирает из PDF метатеги (иногда там бывает название книги, автор и т.п.)

5 считает MD5

Скрипт писался на perl под linux openSuse11.1 ( но будет работать и под другими, лиш бы были нужные утилиты для работы с файлами).

В данный момент скрипт проходит обкатку и скоро возьмется за работу. :)

Возможно объеденю усилия по составлению репозитария  с Bill_G (переговоры в процессе).