Архив на категорию ‘Книгомания’

Прикручиваю Transmission bittorent-клиент к своей качалке

Дата: Сентябрь 24, 2010 - 12:42 дп No Comments

На глаза попал очень интересный клиент под *nix который работает как демон-торрент-клиент – Transmission.

Мне такой клиент очень даже нужет, т.к. семейных нервирует что постоянно запускается командное окно с добавлением файлов на скачку uTorrent-у.

кроме того что этот демон будет работать на виртуалке он еще имеет огромный плюс в том, что существует класс на php (да и на Python тоже), с помощью которого можно добавлять, удалять, перемещать, проверять и т.п. торренты (вот спецификация)! Это как раз мне и нужно, чтобы сделать полностью автономный комплекс для скачки книг.

После недолгих экспериментов я прикрутил добавление заданий в трансмишшен для скачки из моей качалки торрентов. Процесс изучения идет!.

Обнаружилось то что с помощью класса на php нельзя получить информацию по сессии трансмишшена, но эта мелкая неприятность устраняется добавлением новой функции в класс!

Посмотрим как будет вести себя трансмишшен под нагрузкой в пару тысяч торрентов… В данный момент уТоррент начинает тормозить (ИМХО). Вообщем проводим эксперименты и смотрим.

2010-10-13 : Субъективно до 1000 торрентов трансмишшен работает нормально, но после этого порога вроде бы начинает тупить и качать очень медленно.

Новый рубеж TBC

Дата: Сентябрь 14, 2010 - 11:02 пп No Comments

Сегодня подошел к новому рубежу в сборе своей коллекции электронных книг – 330 тыс. книг.  Такое количество книг занимает весь массив объемом 4,5ТБ.

Что делать дальше? Вот это вопрос!

Автоскачка с rutracker.org

Дата: Март 29, 2010 - 11:23 пп No Comments

Все слышали, что произошло с доменом torrents.ru? Думаю да, но не все наверное знают что к тому же они еще и ввели ограничение на количество скачиваемых торрентов с одного аккаунта в день – в среднем 100 (при аплоаде более 5ГБ).

Это конечно печально, ведь в день на трекере появляется более 100 новых книжных постов, которые хотелось бы все забирать. Наверное я писал что я написал набор для автоматического скачивания торрентов с последующим добавлением задания utorrent-у через командный файл. (далее…)

Скачка кижек с торрентс.ру поставлена на поток.

Дата: Июль 27, 2009 - 7:47 пп No Comments

Вчера наконец то оформилась процедура полавтоматичекской скачки книжек с торрентс.ру.

Принцип простой: изначально проходятся все книжные форумы, извлекаются описания книжек. Далее периодичски, допустим 1-2 раза в день делается поиск по трекеру новых книжек за последние Х дней.

Новые торренты скачиваются процедурой и для них формируется командный файл для добавления торрент-файлов торрент-клиенту. запускаешь командный файл и все торренты у тебя уже в клиенте.

Минимум действий – максимум успеха. :)

TBC – новый рубеж

Дата: Июнь 5, 2009 - 10:03 пп No Comments

books4Сегодня моя коллекция перевалила за 60000 рублеж. И это еще обработана не вся инфаната и на очереди Генезис (кторый, сокрее всего, весь уйдет в “уже отработанное”, т.к. формируется из тех же библиотек что и моя коллекция).

Мне в голову пришла одна мысль: А что если брать уникальные (может быть даже и не уникальные) книги и делать по каждой сайт. Но сайт должен быть СДЛным и с одним условием – не публиковать всю книгу, а только часть. Почему? Да потому что не хорошо “обирать” правообладателей. :)

Зачем мне это нужно?

1. Еще один сайт на котором можно подзаработать копееючку.

Зачем это нужно правообладателям?

1. Дополнительная рекламма книги (а книга то не вся будет публиковаться, поэтому те кому она понравится – придется ее найти и купить в реалии).

Вот как то так…. надо еще подумать имеет ли офчинка выдлеки… Но по моим наблюдениям, даже на Автоблоге с нулевыми показателями можно зарабатывать по 2 рубля в день.. это 60 рублей в месяц и 720 рублей в год (сам домен стоит 100 рублей) а это чють ли не 700% годовых – помоему очень хороше вложение, вряд ли кто даст больший процент.

Процесс идет.

Дата: Май 21, 2009 - 10:14 пп No Comments

Процесс сборки библиотеки идет полным ходом. Отобрано уже 31500 книг.

В процессе работы постоянно дорабатывается скрипт. На текущий момент у него версия 1.15.

Из последних изменений:

* Добавлен порог обработки файлов. то есть если файл больше, допустим, 70МБ, то он не обрабатывается, т.к. книг такого размера очень мало. В последствии будет обрабатываться вручную.

* Добавлено условие по содержанию файлов в архиве. Если в архиве кроме книги еще более 1го файла, то отправляем данный архив на ручную обработку. Это обосновано тем, что если в архиве кроме одного файла (обычно рекламма), то это скорее всего полезные файлы и их нужно обработать вручную.

* Добавлено сохранение имен архивов в отдельной таблице. Это может быть полезно при дальнейшем анализе книги – в одном из названий может быть полезная информация : название, количество страниц, издательство и т.п.

* Название файла книги может измениться в процессе обработки. Берется самое длинное имя между имени книги и имени архива. Часто бывает что архив написан по русски и несет значительно больше информации чем файл книги (особенно это актуально для инфанаты/натахауса.

Книгомания – парсер Инфанаты.

Дата: Март 12, 2009 - 6:49 дп No Comments

В предыдущем посте я озвучил проблему описания большого количества книг. Как один из путей повышения скорости описания я вскольз упоминул о возможности выдрать описания с какой либо онлайновской библиотеки, например, инфанаты. Что-ж, сказано – приступил к реализации.

(далее…)

Книгомания

Дата: Март 11, 2009 - 8:50 дп No Comments

Любите ли Вы читать книги? А читаете? А кто то еще любит и собирать их, коллекционировать, так сказать.

Я вот люблю, но пока я вижу трудноразрешаемую задачу – сортировка и описание.

Сортировка…. если книги взяты из нормального источника, то, как правило, они уже называются типа АВТОР-НАЗВАНИЕ_КНИГИ и это , к сожалению, обычно максимум. А название может быть создано и по шаблону, или вообще без названия (как при “рыбалке”). При наличии нормального занятия можно и отсортировать, но вот при его отсутствии еще книжу придется еще и открыть, найти название и переименовать файл.

Описание…. Под этим я понимаю извлечение всех данных книги (название, автора, издтельства, год издания, описания, оглавления и т.п.) Тут то и есть самое затратное дело.

По своему опыту я могу сказать что на описание книги нужно потратить минимум 2-3 минуты. Становится понятно что описание коллекции из 1000 книг займет минимум 2000-3000 минут, или 4-6 рабочих дня. А если коллекция 100 тыс книг, то это 400-600 рабочих дней, то есть исчисление идет на года.

Интересно, есть ли где нибудь база книг с нужными мне данными?  Первое что приходит в голову – natahaus, но тут можно напарсить не все параметры, например там нет оглавления, но это уже что-то.

Я думаю так.

1. напасить описния книг и сложить их в какой нить базе.

2. Начать наполнять сайт книгами (сайт уже есть – http://www.bookshelfs.ru). В процессе наполения и индексации сайта сайт нужно будет монетизировать – сапа, лиекс, может быть какой нить контекст. Это даст денег на хостинг, и в будущем можно будет нанять людей для описания книг.

Если человек тратит на 1 книгу 3 минуты, то за рабочий день можно сделать 20*8=160 книг. За неделю 160*5=800 книг. За месяц 800*4=2400 книг. За эту работу думаю можно заплатить 6-8 тысяч рублей. Таким образом описние одной книги будет стоить 10 рублей (лучше 8 рублей).

Перспектива какая – большое количство старниц в индексе – доход с контекста и бирж.

Конечно, все это размышления и жизнь внесет свои коррективы, но думаю что стоит попробовать.