Те кто увлекается собиранием книжек наверняка сталкивались с программой findISBN, которая ищет в книжках ISBN номера, а также название книги по ним в различных веб-библиотеках. В результате ее работы рядо с книжкой появляются файлы с номерами ISBN и списком найденых названий.
Для того чтобы это собрать в одном CSV файле необходимую информацию и служит скрипт который был написам по просьбе Bill_G.
Его алгоритм.
Ищет все файлы с раширением ISBN, читает первые 4 сточки их него, потом берет 4 сточки из файла с расширением NameBook для этой книжки и первую строчку их файла txt для этой книжки. Из полученных данных форует сроку с разделитлем и пишет ее в файл.
В последствии этот файл можно где-нибудь обработать.
Сам скрипт: Скачать
Дата: Май 16th 2009 Категория:
TigraNAV Book Collection (TBC)
Сегодня сформировалась десятитысячная книга - первый юбилей
Дата: Май 16th 2009 Категория:
TigraNAV Book Collection (TBC)
Сегодня начал формировать свою коллекцию книг.
Первым этапом - обрабока скачанных библиотек (HomeLab,Infanata,Ihtnik и др.).
Задачи первого этапа:
- Убрать дубли и пересечении библиотек и сборок.
- получить обложку книжки (первая страница книги)
- Получить метаинформацию о файле
- Получить текстовый слой (при наличии)
Вторым этапом - описание книг. Описание будет браться из других библиотек и веб-сайтов.
Третим этапом попробую распознать некоторые книги на наличие дополнительной информации - описание, оглавления и т.п.
Дата: Май 14th 2009 Категория:
TigraNAV Book Collection (TBC)