Архив на категорию ‘Проекты’

Прикручиваю Transmission bittorent-клиент к своей качалке

Дата: Сентябрь 24, 2010 - 12:42 дп No Comments

На глаза попал очень интересный клиент под *nix который работает как демон-торрент-клиент – Transmission.

Мне такой клиент очень даже нужет, т.к. семейных нервирует что постоянно запускается командное окно с добавлением файлов на скачку uTorrent-у.

кроме того что этот демон будет работать на виртуалке он еще имеет огромный плюс в том, что существует класс на php (да и на Python тоже), с помощью которого можно добавлять, удалять, перемещать, проверять и т.п. торренты (вот спецификация)! Это как раз мне и нужно, чтобы сделать полностью автономный комплекс для скачки книг.

После недолгих экспериментов я прикрутил добавление заданий в трансмишшен для скачки из моей качалки торрентов. Процесс изучения идет!.

Обнаружилось то что с помощью класса на php нельзя получить информацию по сессии трансмишшена, но эта мелкая неприятность устраняется добавлением новой функции в класс!

Посмотрим как будет вести себя трансмишшен под нагрузкой в пару тысяч торрентов… В данный момент уТоррент начинает тормозить (ИМХО). Вообщем проводим эксперименты и смотрим.

2010-10-13 : Субъективно до 1000 торрентов трансмишшен работает нормально, но после этого порога вроде бы начинает тупить и качать очень медленно.

Автоскачка с rutracker.org

Дата: Март 29, 2010 - 11:23 пп No Comments

Все слышали, что произошло с доменом torrents.ru? Думаю да, но не все наверное знают что к тому же они еще и ввели ограничение на количество скачиваемых торрентов с одного аккаунта в день – в среднем 100 (при аплоаде более 5ГБ).

Это конечно печально, ведь в день на трекере появляется более 100 новых книжных постов, которые хотелось бы все забирать. Наверное я писал что я написал набор для автоматического скачивания торрентов с последующим добавлением задания utorrent-у через командный файл. (далее…)

Сборка библиотеки TBC на рейде.

Дата: Март 24, 2010 - 12:32 дп No Comments

Наконец то в Выходные начал собирать с разных мест своего хранилища книги в одно место – RAID5 массив из 4 дисков WD caviar green 1,5TB (получился один диск в 4,5ТБ).

Скорость записи на массив немного огорчила – в среднем 15МБ/с, наверное это вызвано тем, что при записи идет вычисление контрольных сумм и размазывание по дискам информации. В принципе в этом ничего страшного нет, т.к. преимущественно будет преобладать операция считывания данных с массива – а она положеные 40-50Мб/с.

Сейчас в раздумии, оставить копии книг на дисках или всецелом положится на РЕЙД5… хотелось бы конечно иметь бэкап, но… тогда места опять не будет. К тому же надо иметь в запасе запасную плату рейд-контроллера, на всякий случай.

Готов вылушать мнения.

TBC исходный материал.

Дата: Октябрь 20, 2009 - 4:52 дп No Comments

Доброе, собиратели и коллекционеры книг.

Решил немного написать о текущем состоянии дел с моей коллекцией. Дела таковы что в данный момент идет закачка книжек с torrents.ru и комрада Bill_G,

Не помню, писал я или нет, но я написал набор скриптов, позволяющий на АВТОМАТе вести скачку всех топиков по книгам с федерального торрента.

Набор скриптов запускается по сщедулеру, проверяет наличие новых топиков в выбранных мною форумов, скачку торрент-файлов с моим из под моего аккаунта и добавление его в список закачек uTorrent-а через командную строку.

НУ ОЧЕНЬ УДОБНО, ничего не надо делать – только диски закупай да сматри как они заполняются.

Диски тают на глазах, с 5/10Мбитами интернета. Одно дело скачать, а уже другое – разобрать и удалить дубли. Ну ничего, как только появится маршритизатор у меня  – так и начну потихоньку разбираться накаченное.

Думая о своем репозитории решил переделать его – так скзаать разделить метаданные от данных. То есть книжки будут лежать в одном дереве каталогов, а метаданные  – в другом… и вообще, может быть делать свой формат – архив с описанием, метаданными, самой книжкой и с распознанным материалом. Думаю.

Да будет tiBookCMS

Дата: Июнь 23, 2009 - 2:45 дп No Comments

Позавчера решил написатья свою CMSку для книжек. Данная ЦМСка предназначена для выкладывания на ней результатов распознавания книг.

Базы данных не будет, все будет на файлах + кэширование. Первые  строчки написаны…. примерно через недельку будет захостен первый сайт. Посмотрим что да как. :)

TBC – новый рубеж

Дата: Июнь 5, 2009 - 10:03 пп No Comments

books4Сегодня моя коллекция перевалила за 60000 рублеж. И это еще обработана не вся инфаната и на очереди Генезис (кторый, сокрее всего, весь уйдет в “уже отработанное”, т.к. формируется из тех же библиотек что и моя коллекция).

Мне в голову пришла одна мысль: А что если брать уникальные (может быть даже и не уникальные) книги и делать по каждой сайт. Но сайт должен быть СДЛным и с одним условием – не публиковать всю книгу, а только часть. Почему? Да потому что не хорошо “обирать” правообладателей. :)

Зачем мне это нужно?

1. Еще один сайт на котором можно подзаработать копееючку.

Зачем это нужно правообладателям?

1. Дополнительная рекламма книги (а книга то не вся будет публиковаться, поэтому те кому она понравится – придется ее найти и купить в реалии).

Вот как то так…. надо еще подумать имеет ли офчинка выдлеки… Но по моим наблюдениям, даже на Автоблоге с нулевыми показателями можно зарабатывать по 2 рубля в день.. это 60 рублей в месяц и 720 рублей в год (сам домен стоит 100 рублей) а это чють ли не 700% годовых – помоему очень хороше вложение, вряд ли кто даст больший процент.

37 тысяч книг.

Дата: Май 25, 2009 - 8:26 пп No Comments

Процесс потихоньку но идет. Уже в репозитарии более 37 тысяч книг. (далее…)

Процесс идет.

Дата: Май 21, 2009 - 10:14 пп No Comments

Процесс сборки библиотеки идет полным ходом. Отобрано уже 31500 книг.

В процессе работы постоянно дорабатывается скрипт. На текущий момент у него версия 1.15.

Из последних изменений:

* Добавлен порог обработки файлов. то есть если файл больше, допустим, 70МБ, то он не обрабатывается, т.к. книг такого размера очень мало. В последствии будет обрабатываться вручную.

* Добавлено условие по содержанию файлов в архиве. Если в архиве кроме книги еще более 1го файла, то отправляем данный архив на ручную обработку. Это обосновано тем, что если в архиве кроме одного файла (обычно рекламма), то это скорее всего полезные файлы и их нужно обработать вручную.

* Добавлено сохранение имен архивов в отдельной таблице. Это может быть полезно при дальнейшем анализе книги – в одном из названий может быть полезная информация : название, количество страниц, издательство и т.п.

* Название файла книги может измениться в процессе обработки. Берется самое длинное имя между имени книги и имени архива. Часто бывает что архив написан по русски и несет значительно больше информации чем файл книги (особенно это актуально для инфанаты/натахауса.