Процесс потихоньку но идет. Уже в репозитарии более 37 тысяч книг. Читать далее »
Процесс сборки библиотеки идет полным ходом. Отобрано уже 31500 книг.
В процессе работы постоянно дорабатывается скрипт. На текущий момент у него версия 1.15.
Из последних изменений:
* Добавлен порог обработки файлов. то есть если файл больше, допустим, 70МБ, то он не обрабатывается, т.к. книг такого размера очень мало. В последствии будет обрабатываться вручную.
* Добавлено условие по содержанию файлов в архиве. Если в архиве кроме книги еще более 1го файла, то отправляем данный архив на ручную обработку. Это обосновано тем, что если в архиве кроме одного файла (обычно рекламма), то это скорее всего полезные файлы и их нужно обработать вручную.
* Добавлено сохранение имен архивов в отдельной таблице. Это может быть полезно при дальнейшем анализе книги - в одном из названий может быть полезная информация : название, количество страниц, издательство и т.п.
* Название файла книги может измениться в процессе обработки. Берется самое длинное имя между имени книги и имени архива. Часто бывает что архив написан по русски и несет значительно больше информации чем файл книги (особенно это актуально для инфанаты/натахауса.
Те кто увлекается собиранием книжек наверняка сталкивались с программой findISBN, которая ищет в книжках ISBN номера, а также название книги по ним в различных веб-библиотеках. В результате ее работы рядо с книжкой появляются файлы с номерами ISBN и списком найденых названий.
Для того чтобы это собрать в одном CSV файле необходимую информацию и служит скрипт который был написам по просьбе Bill_G.
Его алгоритм.
Ищет все файлы с раширением ISBN, читает первые 4 сточки их него, потом берет 4 сточки из файла с расширением NameBook для этой книжки и первую строчку их файла txt для этой книжки. Из полученных данных форует сроку с разделитлем и пишет ее в файл.
В последствии этот файл можно где-нибудь обработать.
Сам скрипт: Скачать
Сегодня сформировалась десятитысячная книга - первый юбилей
Сегодня начал формировать свою коллекцию книг.
Первым этапом - обрабока скачанных библиотек (HomeLab,Infanata,Ihtnik и др.).
Задачи первого этапа:
- Убрать дубли и пересечении библиотек и сборок.
- получить обложку книжки (первая страница книги)
- Получить метаинформацию о файле
- Получить текстовый слой (при наличии)
Вторым этапом - описание книг. Описание будет браться из других библиотек и веб-сайтов.
Третим этапом попробую распознать некоторые книги на наличие дополнительной информации - описание, оглавления и т.п.
На днях я задумался о системе, в которой можно было бы вести все свои веб-дела, и не просто - а совместно с другими людьми.
Подумав, я решил что напишу такую для себя. Часть уже готова. В ней есть:
- Управление пользователями
- Каталог сайтов
- Каталог доменных регистраторов
- Каталог хостингов
- Система Заданий (о ней подробнее ниже).
Что собираюсь сделать:
- Система событий с сайтов
- Централизованный бэкап
- Система контроля целостности файлов сайтов
Что такое система управления Заданиями?
В двух словах: Есть несколько человек, которые работают в группе над несколькими сайтами. Есть, допустим, программист, оптимизатор и контеншик. В данной системе можно регитрировать все действия которые делаются людьми и которые нужно сделать кем-либо, буть до необхдимые доработки, наполение сайта или что то еще. Например координатор может открыть задание на контенщика, чтобы тот добавил несколько статей на сайти и Задание на Программиста, чтобы тот доработал сайт или исправил какую-либо обнаруженную ошибку. Причем, человек видит только те Задания, которые он создавал сам или в которых он стоит одним из Исполнителей.
После создания Задания в нем можно фиксировать какие-то моменты и вести переписку по данному заданию.
В кратце все.
Постепенно система будет дорабатываться и совершенствоваться.
Попросили написать скрипт для бэкапирования каталогов, с возможностью указать сколько дней хранить файлы.
Вот что получилось:
#!/bin/bash
STORE=4
SRC=/tmp/kvlp
DST=/tmp/kvlp_backupDATE=`date +%Y-%m-%d`
mkdir -p “$DST/$DATE”;cp -R “$SRC”/* “$DST/$DATE/”
for item in $(find /tmp/kvlp_backup/ * -mtime +”$STORE” -type d)
do
rm -rfd “$item”
done
Думаю что тут все понятно:
STORE - количество дней которое нужно хранить бэкап.
SRC - Директория, данные их которой нужно бэкапировать
DST - Директория где храняться бэкапы.
Я уже писал ранее, что взялся за скачку книг из инета и составления своего репозитария книг. Для этого я должен написать скрипт, формирующий репозитарий в удобной форме.
Потратив некоторое время получился скрипт, который вскоре начнет формировать мой репозитарий.
Его основные возможности:
1 РАспаковывает запакованные книги
2 Достает текстовый слой
3 Выдирает первую страницу и конвертирует ее в JPG
4 Выдирает из PDF метатеги (иногда там бывает название книги, автор и т.п.)
5 считает MD5
Скрипт писался на perl под linux openSuse11.1 ( но будет работать и под другими, лиш бы были нужные утилиты для работы с файлами).
В данный момент скрипт проходит обкатку и скоро возьмется за работу.
Возможно объеденю усилия по составлению репозитария с Bill_G (переговоры в процессе).

