Теги записей ‘TBC’

Прикручиваю Transmission bittorent-клиент к своей качалке

Дата: Сентябрь 24, 2010 - 12:42 дп No Comments

На глаза попал очень интересный клиент под *nix который работает как демон-торрент-клиент – Transmission.

Мне такой клиент очень даже нужет, т.к. семейных нервирует что постоянно запускается командное окно с добавлением файлов на скачку uTorrent-у.

кроме того что этот демон будет работать на виртуалке он еще имеет огромный плюс в том, что существует класс на php (да и на Python тоже), с помощью которого можно добавлять, удалять, перемещать, проверять и т.п. торренты (вот спецификация)! Это как раз мне и нужно, чтобы сделать полностью автономный комплекс для скачки книг.

После недолгих экспериментов я прикрутил добавление заданий в трансмишшен для скачки из моей качалки торрентов. Процесс изучения идет!.

Обнаружилось то что с помощью класса на php нельзя получить информацию по сессии трансмишшена, но эта мелкая неприятность устраняется добавлением новой функции в класс!

Посмотрим как будет вести себя трансмишшен под нагрузкой в пару тысяч торрентов… В данный момент уТоррент начинает тормозить (ИМХО). Вообщем проводим эксперименты и смотрим.

2010-10-13 : Субъективно до 1000 торрентов трансмишшен работает нормально, но после этого порога вроде бы начинает тупить и качать очень медленно.

Новый рубеж TBC

Дата: Сентябрь 14, 2010 - 11:02 пп No Comments

Сегодня подошел к новому рубежу в сборе своей коллекции электронных книг – 330 тыс. книг.  Такое количество книг занимает весь массив объемом 4,5ТБ.

Что делать дальше? Вот это вопрос!

TBC – новый рубеж

Дата: Июнь 5, 2009 - 10:03 пп No Comments

books4Сегодня моя коллекция перевалила за 60000 рублеж. И это еще обработана не вся инфаната и на очереди Генезис (кторый, сокрее всего, весь уйдет в “уже отработанное”, т.к. формируется из тех же библиотек что и моя коллекция).

Мне в голову пришла одна мысль: А что если брать уникальные (может быть даже и не уникальные) книги и делать по каждой сайт. Но сайт должен быть СДЛным и с одним условием – не публиковать всю книгу, а только часть. Почему? Да потому что не хорошо “обирать” правообладателей. :)

Зачем мне это нужно?

1. Еще один сайт на котором можно подзаработать копееючку.

Зачем это нужно правообладателям?

1. Дополнительная рекламма книги (а книга то не вся будет публиковаться, поэтому те кому она понравится – придется ее найти и купить в реалии).

Вот как то так…. надо еще подумать имеет ли офчинка выдлеки… Но по моим наблюдениям, даже на Автоблоге с нулевыми показателями можно зарабатывать по 2 рубля в день.. это 60 рублей в месяц и 720 рублей в год (сам домен стоит 100 рублей) а это чють ли не 700% годовых – помоему очень хороше вложение, вряд ли кто даст больший процент.

37 тысяч книг.

Дата: Май 25, 2009 - 8:26 пп No Comments

Процесс потихоньку но идет. Уже в репозитарии более 37 тысяч книг. (далее…)

Процесс идет.

Дата: Май 21, 2009 - 10:14 пп No Comments

Процесс сборки библиотеки идет полным ходом. Отобрано уже 31500 книг.

В процессе работы постоянно дорабатывается скрипт. На текущий момент у него версия 1.15.

Из последних изменений:

* Добавлен порог обработки файлов. то есть если файл больше, допустим, 70МБ, то он не обрабатывается, т.к. книг такого размера очень мало. В последствии будет обрабатываться вручную.

* Добавлено условие по содержанию файлов в архиве. Если в архиве кроме книги еще более 1го файла, то отправляем данный архив на ручную обработку. Это обосновано тем, что если в архиве кроме одного файла (обычно рекламма), то это скорее всего полезные файлы и их нужно обработать вручную.

* Добавлено сохранение имен архивов в отдельной таблице. Это может быть полезно при дальнейшем анализе книги – в одном из названий может быть полезная информация : название, количество страниц, издательство и т.п.

* Название файла книги может измениться в процессе обработки. Берется самое длинное имя между имени книги и имени архива. Часто бывает что архив написан по русски и несет значительно больше информации чем файл книги (особенно это актуально для инфанаты/натахауса.

Начал формировать свою коллекцию книг (TBC)

Дата: Май 14, 2009 - 9:39 пп No Comments

Сегодня начал формировать свою коллекцию книг.

Первым этапом – обрабока скачанных библиотек (HomeLab,Infanata,Ihtnik и др.).

Задачи первого этапа:

  1. Убрать дубли и пересечении библиотек и сборок.
  2. получить обложку книжки (первая страница книги)
  3. Получить метаинформацию о файле
  4. Получить текстовый слой (при наличии)

Вторым этапом – описание книг. Описание будет браться из других библиотек и веб-сайтов.

Третим этапом попробую распознать некоторые книги на наличие дополнительной информации – описание, оглавления и т.п.