Теги записей ‘книги’

Новый сайт поиска по содержанию книжек www.tlibrary.ru

Дата: Июнь 1, 2015 - 1:17 дп No Comments

Доброе, сетевые жители

Предлагаю посмотреть на новый сайт, который сейчас разрабатывается – www.tlibrary.ru

Главная суть сайта – сделать возможность поиска по содержанию книжек. Да, вы скажете таких сайтов полно, но изюминка этого в том что на сайте постепенно появляется информация о книжках, в которых картинки автоматически распознаются.  То есть те книги, которых находятся в сканах проганяются через программы распознания (пока только часть книги) и полученое распознанное содержимое может быть использовано для поиска.

Пока конечно все сыро, и в распознанном контенте много ошибок, но такова цена бюджетности. Если сайт будет пользоваться популярностью, то многое можно исправить.

Начал формировать свою коллекцию книг (TBC)

Дата: Май 14, 2009 - 9:39 пп No Comments

Сегодня начал формировать свою коллекцию книг.

Первым этапом – обрабока скачанных библиотек (HomeLab,Infanata,Ihtnik и др.).

Задачи первого этапа:

  1. Убрать дубли и пересечении библиотек и сборок.
  2. получить обложку книжки (первая страница книги)
  3. Получить метаинформацию о файле
  4. Получить текстовый слой (при наличии)

Вторым этапом – описание книг. Описание будет браться из других библиотек и веб-сайтов.

Третим этапом попробую распознать некоторые книги на наличие дополнительной информации – описание, оглавления и т.п.

Книгомания

Дата: Март 11, 2009 - 8:50 дп No Comments

Любите ли Вы читать книги? А читаете? А кто то еще любит и собирать их, коллекционировать, так сказать.

Я вот люблю, но пока я вижу трудноразрешаемую задачу – сортировка и описание.

Сортировка…. если книги взяты из нормального источника, то, как правило, они уже называются типа АВТОР-НАЗВАНИЕ_КНИГИ и это , к сожалению, обычно максимум. А название может быть создано и по шаблону, или вообще без названия (как при “рыбалке”). При наличии нормального занятия можно и отсортировать, но вот при его отсутствии еще книжу придется еще и открыть, найти название и переименовать файл.

Описание…. Под этим я понимаю извлечение всех данных книги (название, автора, издтельства, год издания, описания, оглавления и т.п.) Тут то и есть самое затратное дело.

По своему опыту я могу сказать что на описание книги нужно потратить минимум 2-3 минуты. Становится понятно что описание коллекции из 1000 книг займет минимум 2000-3000 минут, или 4-6 рабочих дня. А если коллекция 100 тыс книг, то это 400-600 рабочих дней, то есть исчисление идет на года.

Интересно, есть ли где нибудь база книг с нужными мне данными?  Первое что приходит в голову – natahaus, но тут можно напарсить не все параметры, например там нет оглавления, но это уже что-то.

Я думаю так.

1. напасить описния книг и сложить их в какой нить базе.

2. Начать наполнять сайт книгами (сайт уже есть – http://www.bookshelfs.ru). В процессе наполения и индексации сайта сайт нужно будет монетизировать – сапа, лиекс, может быть какой нить контекст. Это даст денег на хостинг, и в будущем можно будет нанять людей для описания книг.

Если человек тратит на 1 книгу 3 минуты, то за рабочий день можно сделать 20*8=160 книг. За неделю 160*5=800 книг. За месяц 800*4=2400 книг. За эту работу думаю можно заплатить 6-8 тысяч рублей. Таким образом описние одной книги будет стоить 10 рублей (лучше 8 рублей).

Перспектива какая – большое количство старниц в индексе – доход с контекста и бирж.

Конечно, все это размышления и жизнь внесет свои коррективы, но думаю что стоит попробовать.