Создание книг в формате djvu

как найти книгу или статью? не поделится ли кто-нибудь программой? если у вас такой вопрос - значит, вам сюда!
Аватара пользователя
Albo
Сообщения: 937
Зарегистрирован: Вт июн 10, 2008 8:35 pm

Создание книг в формате djvu

Сообщение Albo » Пт мар 13, 2009 12:08 am

Участникам форума, сканирующим книги посвящается просьба поделиться знаниями, умением и ссылками на альтернативные варианты.

Как оказалось, можно не только читать созданные кем-то электронные книги, но и создавать их самостоятельно. Хотя в интернете можно без особого труда найти всю необходимую информацию, предлагаю поделиться своими наработками.

Наиболее простым решением, как мне кажется, является использование бесплатной программы Scantailor - ей достаточно предоставить цифровые фото или сканы книги, дальнейшие операции - выравнивания, поворота, разрезания на страницы, создания полей и вывод в формате tiff - она делает почти автоматически. Полученные файлы изображений в формате tiff легко конвертируются в djvu бесплатной программой DjVu Small, ей достаточно указать каталог с полученными файлами. На всю обработку затрачивается минимум времени, программы имеют небольшой размер и работают без установки.

Как уже указывалось в соседних темах, один из самых полезных ресурсов по djvu - _http://www.djvu-soft.narod.ru/
Последний раз редактировалось Albo Вс сен 20, 2015 6:29 pm, всего редактировалось 2 раза.

Аватара пользователя
Jeffry
Сообщения: 2428
Зарегистрирован: Пн май 12, 2008 5:31 pm

Re: Создание книг в формате djvu

Сообщение Jeffry » Сб мар 21, 2009 2:31 pm

Несколько ключевых моментов при изготовлении djvu-книги:

1. При изготовлении djvu-книги обычно много времени уходит на чистку сканов от серых пятен, черных полос, россыпей точек и т.п.
Я обычно при чистке сканов использую Presto Image Folio - некое подобие фотошопа, но работает побыстрее. Программа позволяет менять размер страницы в пикселах, удалять выделенные фрагменты, изменять яркость и контраст фрагментов (эта процедура особенно полезна при удалении серого фона), поворачивать фрагменты на малый угол (тоже удобно очень). Единственное неудобство - работа с каждой страницей индивидуальная, нельзя оптом прогнать все страницы.
Оптовые действия возможны в Кромсаторе (но я никак его не освою в полной мере).
2. Сборку djvu обычно провожу djvu-Prof. editor'ом (5.0 или 6.0). Всю книгу целиком обычно не пытаюсь собрать сразу, поэтапно добавляя страниц по 30-60 - были какие-то проблемы, связанные с зависаниями (может быть из-за нехватки или неудачного распределения памяти).
3. Иногда Prof. editor отказывается добавлять некоторые страницы - тогда эти странички открываю и повторно сохраняю графическим редактором.
4. Для прошивки ocr надо разбить книгу на странички в графическом формате (используется программа OCR DjVu - версия 2.4 удобнее всех более ранних http://djvuocr.ucoz.ru/load/), загрузить странички в FineReader (я привык использовать версию 8.0), провести распознавание и сохранить пакет. Та же программа OCR DjVu (используя FR-пакет) собирает книгу уже с текстовым слоем. У программы минус один - не любит кириллицу в именах файлов. Если исходная книга имеет имя файла на кириллице, то создается новый файл с именем из квадратиков. Но эту проблему легко решить, копируя имя старого файла, удаляя его и называя новый старым именем. Fine Reader иногда не распознает страничку, тогда в пакете на ней будет красная метка. Обычно сохраняю пакет, а страничку открываю графическим редактором и сохраняю в другом формате (напр., bmp вместо tiff) - теперь добавляю страничку к пакету и повторяю ее распознавание. Если оно удачное - страничку с меткой удаляю, а последней страничке пакета назначаю номер удаленной. Такое с Fine Reader'ом иногда случается, когда работает сразу много программ. Имя пакета в Fine Reader'e - всякий раз назначается новое - нельзя сохранить пакет с именем открытого пакета - тут важно не запутаться (проблема легко решается последующим удалением старого пакета и переименованием нового). Для OCR DjVu у меня имя пакета FR всегда одно - paket.
5. Чтобы не создавать кучи лишних файлов, все манипуляции по изготовлению djvu-книги удобнее делать в отдельном подкаталоге, а по окончании всех процедур удалить все лишнее.
6. Кроме ocr удобно в djvu-книге создавать закладки (bookmarks) - утилитой bm_tools. Это лучше обсудить в отдельной теме.
7. DjVu-книги с закладками удобнее читать, используя не стандартный Lizardtech-плагин, а программу WinDjView (появляется возможность переноса для длинных текстов в закладках). Она, кроме того, позволяет использовать прокрутку (скроллинг) страниц, как это делается в Acrobat Reader, например.
8. Иногда требуется не только собрать сканы в книгу, но и разбить сканы пополам - это оптом делается в FineReader'e. Так же оптом производится в FineReader'e и поворот сканов на 90 градусов (иногда и он требуется). Кроме того, Fine Reader позволяет создать набор картинок (после выше приведенных манипуляций) - я обычно сохраняю в формате tiff, серый, несжатый. Если лень бороться с серым фоном, то можно сохранить в формате tiff, черно-белый, G4. Качество книги, правда, будет похуже, но иногда вполне нормальное (если исходные сканы качественные).
9. Много интересного по сабжу темы можно найти тут: http://www.djvu-soft.narod.ru/scan/scan ... e_1_07.htm
Последний раз редактировалось Jeffry Чт май 13, 2010 8:36 pm, всего редактировалось 3 раза.

Аватара пользователя
Upstream
Сообщения: 3444
Зарегистрирован: Ср июн 11, 2008 10:46 am

Re: Создание книг в формате djvu

Сообщение Upstream » Сб мар 21, 2009 5:23 pm

Возможно, я что-то упустил, но до сих пор мне не встречались tips & tricks how to pdf-->djvu.
Знающих прошу направить меня в нужное место. :wink:

Аватара пользователя
Albo
Сообщения: 937
Зарегистрирован: Вт июн 10, 2008 8:35 pm

Re: Создание книг в формате djvu

Сообщение Albo » Сб мар 21, 2009 9:20 pm

Наиболее быстро перевести pdf => djvu можно с помощью виртуального принтера, как минимум, размер файла станет поменьше, но ОCR прикрутить за пару кликов не получится. Кстати, с его помощью можно из любого приложения в djvu направить.
DjvuPrinter.zip

Аватара пользователя
Jeffry
Сообщения: 2428
Зарегистрирован: Пн май 12, 2008 5:31 pm

Re: Создание книг в формате djvu

Сообщение Jeffry » Вс мар 22, 2009 7:57 am

pdf-->djvu
Нет особого смысла переводить pdf в djvu. Для меня решающий фактор - качество книги, а размер - даже сотня-другая мегабайт - не имеет значения. Если качество pdf-книги хорошее, зачем ее преобразовывать? В общем, вопрос спорный.
Единственный случай - испорченные по OCR книги в pdf-формате (из-за неверно заданного языка при прошивке OCR или по другим причинам). Существенный недостаток pdf - невозможность удалить OCR, соответственно, невозможно повторное проведение распознавания.
ОCR прикрутить за пару кликов не получится
В DjVu Prof Editor'e - как раз пара кликов - и запускается прошивка. Но качество ее похуже, чем с FineReader'ом - а (как выше написал)решающий фактор - качество книги (сам проводил тестирование качества OCR для 3 программ: Solo 3.1, Prof.Editor 5.0 и FineReader 7.0 + OCR DjVu на страничке плохого качества). К тому же с DjVu Prof Editor'ом процесс прошивки OCR долгий и может внезапно сорваться.

Аватара пользователя
bromin
Сообщения: 4198
Зарегистрирован: Чт янв 24, 2008 7:38 pm
Контактная информация:

Re: Создание книг в формате djvu

Сообщение bromin » Пн мар 23, 2009 6:51 pm

недавно попробовал связку Pdftodjvu LE v0.1 + WinDjView 1.0.1 обе бесплатные. Первая перегоняет PDF за пару кликов и немного времени в DJVU вторая позволяет "крутить" страницы колесом мыши и имеет закладки на страницы, а не только миниатюры страниц. С PDFtoDJVU еще толком не разобрался, но кажется она позволяет оставлять текстовый слой из файла оригинала.
Для примера папка с Beilsteins handbuch der organischen chemie (Band 12) (Vierte auflage) в тифах (черно белые) весит 245,5 мегабайт, собранный в 1 PDF файл (сжат JBIG2 компрессором)(Спасибо коллеге 5-метокси направил и подсказал) весит 95,5 мегабайт, а DJVU уже 27,9 мегабайт.
А про предпочтения и любимые форматы, могу сказать словами народной мудрости: Кто то любит попа, кто то попадью, а кто то попову дочку...
Хотя я сам, то что сканировал перегоняю в pdf. Потому как создание DJVU из TIF нередко заканчивается какими то косяками :-( и сбоем программы

Аватара пользователя
Albo
Сообщения: 937
Зарегистрирован: Вт июн 10, 2008 8:35 pm

Re: Создание книг в формате djvu

Сообщение Albo » Пн мар 23, 2009 11:26 pm

bromin писал(а): Хотя я сам, то что сканировал перегоняю в pdf. Потому как создание DJVU из TIF нередко заканчивается какими то косяками :-( и сбоем программы
Я когда разбирался с OCR тоже "попал" на глючную софтинку в статусе бета, не выполнявшей своего долга :) Все благополучно уладилось с переходом на предыдущую стабильную версию, может и у вас та же ситуация. С созданием дежавю из тиф проблем вроде как быть не должно, попробуйте тот же Document Express Еditor...

Polychemist
Сообщения: 9435
Зарегистрирован: Вт дек 21, 2004 11:42 am

Re: Создание книг в формате djvu

Сообщение Polychemist » Вс апр 19, 2009 2:21 pm

Не люблю я ту дежавю... Все файлы, что я видел - 300 dpi ч/б. И кому оно нафиг надо??? Сейчас ( и года 3 назад) средний сканер без напряга дает 600. Далее акробат с распознавалкой - и цивильный документ. Да, он раза в 2-3 больше убогого дежавю. Ну и что?

Cherep
Сообщения: 23301
Зарегистрирован: Чт окт 30, 2003 9:22 am

Re: Создание книг в формате djvu

Сообщение Cherep » Пн апр 20, 2009 5:09 pm

У меня комп - третий пень с 256 метрами ОЗУ!
300 дпи - идеально

Аватара пользователя
Jeffry
Сообщения: 2428
Зарегистрирован: Пн май 12, 2008 5:31 pm

Re: Создание книг в формате djvu

Сообщение Jeffry » Пн апр 20, 2009 5:23 pm

А я pdf не очень долюбливаю. Распознает текст плохо, поиск - часто не находит, что ищу. Перевел в djvu - и с поиском проблем намного меньше. Кроме того, поиск либо на латинице, либо на кириллице, а OCR в djvu с помощью FineReader - и то и другое. Для некоторых книг - напр., ин. яз. учебников или словарей это важно. И самое худшее - когда pdf из плохих сканов - просто сразу выбрасываю, независимо от самой книги (ocr иногда вообще не прошить).
В последнее время в интернете много развелось pdf (особенно журналов и журнальных статей), сделанных кривыми руками - в них поиск крокозябликов вместо слов. Переделать файлы - довольно трудоемко и часто ведет к потере качества изображения - тут бывшие преимущества pdf становятся недостатками.
Последний раз редактировалось Jeffry Пт авг 07, 2009 8:51 am, всего редактировалось 1 раз.

Аватара пользователя
amge
Сообщения: 2016
Зарегистрирован: Вт июл 31, 2007 11:42 am

Re: Создание книг в формате djvu

Сообщение amge » Чт май 28, 2009 12:10 pm

Polychemist писал(а):Не люблю я ту дежавю... Все файлы, что я видел - 300 dpi ч/б. И кому оно нафиг надо???
300 dpi ч/б -- это отнюдь не пермаментное свойство данного формата. Более того, умные люди рекомендуют djvu-документы делать с разрешением 600 и более dpi (при этом, как ни странно, размер файла даже уменьшается).

И насчет размера файлов -- на самом деле тоже важно, даже в наше время. Библиотечка из самых необходимых химических книг (~ 1000 шт.) в djvu на dvd или флешку поместится, в pdf - тоже поместится, но только через сколько то лет, когда флешки будут больше. :D

Аватара пользователя
Jeffry
Сообщения: 2428
Зарегистрирован: Пн май 12, 2008 5:31 pm

Re: Создание книг в формате djvu

Сообщение Jeffry » Пн авг 17, 2009 8:56 am

Просьба к людям, выкладывающим пакеты сканов для изготовления е-книг, правильно нумеровать сканы еще при сканировании.
А именно: номера сканов должны быть 0001 - 0002 - 0003 и т.д., а ни в коем случае не 1, 2, 3 и т.д., поскольку считывание группы файлов в пакет Fine Reader'a происходит не по числам, а по первому символу имени файлов. Это устранит путаницу в расстановке страниц книги и не потребует переименования большого числа файлов вручную. Заранее спасибо.

Аватара пользователя
Jeffry
Сообщения: 2428
Зарегистрирован: Пн май 12, 2008 5:31 pm

Re: Создание книг в формате djvu

Сообщение Jeffry » Сб авг 29, 2009 7:53 am

Небольшая инструкция по добавлению закладок (bookmarks) в djvu (djv)

1. Найти в сети и скачать маленький пакет утилиты bm_tools
2. Файл, для которого предполагаем добавить закладки, копируем в папку bm_tools и переименовываем в book (это imho - удобнее).
3. Открываем book программой windjview (чтобы иметь возможность прокрутки) и тут же в соседнем окне создаем блокнотовский файл bm.txt Этот файл должен иметь форму, как на указанном примере:

Введение #3
Раздел 1 #7
Часть 1 #7
Глава 1 #7
Параграф 1.1 #7

То есть, сначала копируем (или пишем) текст закладки, затем - знак табуляции (tab), затем - знак номера #, затем - номер страницы е-книги (может не совпадать со страницей бумажного варианта)
Прибелы (см. пример) перед текстом обозначают вложение закладки в предыдущую (которая без пробела), число пробелов - т.н. уровень вложения. Внимательнее проверяем ошибки (не должно быть лишних пробелов перед знаком табуляции (и после номера страницы) и лишних знаков табуляции!!!) иначе программа проигнорирует команду написания закладок.
4. Файл bm.txt создан, остается написать командную строку (у меня - в таком виде):
C:\DJVU\bm_tools\EmbedBM.cmd C:\DJVU\bm_tools\book.djvu C:\DJVU\bm_tools\bm.txt
Командную строку можно написать единожды и хранить в блокнотовском файле (напр. bm-command).
5. Копируем командную строку и вставляем ее в Главном Меню в строку Выполнить...
6. Остается перенести book.djvu туда, откуда взяли и обратно переименовать.

Аватара пользователя
Albo
Сообщения: 937
Зарегистрирован: Вт июн 10, 2008 8:35 pm

Re: Создание книг в формате djvu

Сообщение Albo » Вс янв 10, 2010 12:06 am

Чрезвычайно рекомендую программу Scantailor для обработки изображений для создания дежавю. Ей достаточно скормить любые файлы (фото, сканы, да что угодно с изображением вашего бумажного источника знаний), и через некоторое время она выдает отличнейшим образом подготовленные тифы, которые можно склеить с помощью DjVu Small. На всю обработку затрачивается минимум времени, и не требуется ни фотошопов, ни дополнительных телодвижений по освоению того же скан кромсатора. Интерфейс также до боли понятен.
Обе программы бесплатны, и легко гуглятся.

Аватара пользователя
bromin
Сообщения: 4198
Зарегистрирован: Чт янв 24, 2008 7:38 pm
Контактная информация:

Re: Создание книг в формате djvu

Сообщение bromin » Вт янв 19, 2010 10:53 pm

Albo писал(а):Чрезвычайно рекомендую программу Scantailor для обработки изображений
Это просто суппер какой то!!! Эмоции захлестывают!!!
Albo, огромное Гигаспасибо за Ваш пост. Скачал прогу думал придется репу морщить как с кромсатором. Ничего подобного! Все интуитивно понятно, книгу разрезал такую, почти правильно, на которой бы файн ридер захлебнулся (резал всегда им) . И ориентацию выправил до десятых градуса и поля наложил ровненько :D
У меня сегодня праздник!!!

Аватара пользователя
Upstream
Сообщения: 3444
Зарегистрирован: Ср июн 11, 2008 10:46 am

Re: Создание книг в формате djvu

Сообщение Upstream » Ср янв 20, 2010 9:24 am

Albo, за мной мешок репы! Классная программа!
Кстати, а как можно все страницы djvu файла разом проэкспортировать в tiff-ы?

Аватара пользователя
bromin
Сообщения: 4198
Зарегистрирован: Чт янв 24, 2008 7:38 pm
Контактная информация:

Re: Создание книг в формате djvu

Сообщение bromin » Ср янв 20, 2010 10:20 am

Upstream писал(а):Albo, за мной мешок репы! Классная программа!
Кстати, а как можно все страницы djvu файла разом проэкспортировать в tiff-ы?
Я это делаю программкой DJVUDecode.
Описание куда то засунул :-(
Но все достаточно просто. Сейчас попробую объяснить.
1. Для начала запускаете командную строку. Файл с книжкой обычно переименовываю покороче например 1.djvu
2. Кидаете в одну папку файл 1.djvu и djvudecode.exe (допустим D:/0/)
3. дальше в командной строке D:\0>djvudecode 1.djvu 1.tif (в результате получаем многостраничный tif)
4. В оконцовке я распускаю многостраничный на одностраничные finereader ом.
Вот собственно кажется и все :D
ЗЫ: если файл большой то иногда возникает ощущение подвисания
ЗЫЫ: начиная с версии 9 FineReader понимает формат djvu

Аватара пользователя
Albo
Сообщения: 937
Зарегистрирован: Вт июн 10, 2008 8:35 pm

Re: Создание книг в формате djvu

Сообщение Albo » Ср янв 20, 2010 11:40 pm

Upstream писал(а):Albo, за мной мешок репы! Классная программа!
Кстати, а как можно все страницы djvu файла разом проэкспортировать в tiff-ы?
С помощью того же DjVu Small. Выбираете файл, щелкаете Декодировать djvu, и собираете все странички в указанной папке. Это же вроде умеют и другие программы, но так проще всего, имхо, ибо проще - просто невозможно :)

Аватара пользователя
Jeffry
Сообщения: 2428
Зарегистрирован: Пн май 12, 2008 5:31 pm

Re: Создание книг в формате djvu

Сообщение Jeffry » Вс янв 31, 2010 12:04 pm

О программе Scan Tailor, о ее преимуществах, удобстве использования и возможных ошибках можно почитать тут:

Код: Выделить всё

http://jenyay.net/blog/2009/04/30/scan-tailor-programma-dlya-obrabotki-otskanirovannykh-knig/
Особенно радует возможность поворотов до десятых долей градуса, но все же еще кое-какие функции хотелось бы иметь в наличии.
Хочется иметь возможность рапознавания текста, выделения квадратиков нужных букв и заменять некоторые порченные буквы эталонно выбранной буковкой. Тогда будет возможность коррекции плохих страниц.

Аватара пользователя
Albo
Сообщения: 937
Зарегистрирован: Вт июн 10, 2008 8:35 pm

Re: Создание книг в формате djvu

Сообщение Albo » Чт апр 01, 2010 10:20 pm

Для создания снимков экрана, фрагментов изображений, например, с теми же справочными данными из книги в формате дежавю или пдф, когда вся книга не нужна, а требуется только какой-либо ее небольшой фрагмент, есть целая куча специализированного ПО.
Один из бесплатных неплохих вариантов - программа Clip2Net весом пару Мб, которая захватит нужную часть экрана, сохранит в виде файла или загрузит на свой сервер (выдав в замен ссылку) сроком на 30 дней, или просто скопирует изображение в буфер обмена, чтобы использовать его в том же ворде.
В установленном виде занимает несколько Мб, при этом ничего не прописывает в систему (можно скопировать файлы из директории установки и использовать на любом ЭВМ), не оставляет на изображениях водяных знаков, доступны минимальные функции (обрезка, нанесение прямоугольника, овала, стрелок и т.п. разных цветов).

P.S. Сейчас для этих целей безоговорочно перешел на программу PicPick
Последний раз редактировалось Albo Вт ноя 20, 2012 12:16 am, всего редактировалось 1 раз.

Ответить

Вернуться в «обмен книгами, статьями, программами»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 7 гостей