Создание книг в формате djvu
Создание книг в формате djvu
Участникам форума, сканирующим книги посвящается просьба поделиться знаниями, умением и ссылками на альтернативные варианты.
Как оказалось, можно не только читать созданные кем-то электронные книги, но и создавать их самостоятельно. Хотя в интернете можно без особого труда найти всю необходимую информацию, предлагаю поделиться своими наработками.
Наиболее простым решением, как мне кажется, является использование бесплатной программы Scantailor - ей достаточно предоставить цифровые фото или сканы книги, дальнейшие операции - выравнивания, поворота, разрезания на страницы, создания полей и вывод в формате tiff - она делает почти автоматически. Полученные файлы изображений в формате tiff легко конвертируются в djvu бесплатной программой DjVu Small, ей достаточно указать каталог с полученными файлами. На всю обработку затрачивается минимум времени, программы имеют небольшой размер и работают без установки.
Как уже указывалось в соседних темах, один из самых полезных ресурсов по djvu - _http://www.djvu-soft.narod.ru/
Как оказалось, можно не только читать созданные кем-то электронные книги, но и создавать их самостоятельно. Хотя в интернете можно без особого труда найти всю необходимую информацию, предлагаю поделиться своими наработками.
Наиболее простым решением, как мне кажется, является использование бесплатной программы Scantailor - ей достаточно предоставить цифровые фото или сканы книги, дальнейшие операции - выравнивания, поворота, разрезания на страницы, создания полей и вывод в формате tiff - она делает почти автоматически. Полученные файлы изображений в формате tiff легко конвертируются в djvu бесплатной программой DjVu Small, ей достаточно указать каталог с полученными файлами. На всю обработку затрачивается минимум времени, программы имеют небольшой размер и работают без установки.
Как уже указывалось в соседних темах, один из самых полезных ресурсов по djvu - _http://www.djvu-soft.narod.ru/
Последний раз редактировалось Albo Вс сен 20, 2015 6:29 pm, всего редактировалось 2 раза.
Re: Создание книг в формате djvu
Несколько ключевых моментов при изготовлении djvu-книги:
1. При изготовлении djvu-книги обычно много времени уходит на чистку сканов от серых пятен, черных полос, россыпей точек и т.п.
Я обычно при чистке сканов использую Presto Image Folio - некое подобие фотошопа, но работает побыстрее. Программа позволяет менять размер страницы в пикселах, удалять выделенные фрагменты, изменять яркость и контраст фрагментов (эта процедура особенно полезна при удалении серого фона), поворачивать фрагменты на малый угол (тоже удобно очень). Единственное неудобство - работа с каждой страницей индивидуальная, нельзя оптом прогнать все страницы.
Оптовые действия возможны в Кромсаторе (но я никак его не освою в полной мере).
2. Сборку djvu обычно провожу djvu-Prof. editor'ом (5.0 или 6.0). Всю книгу целиком обычно не пытаюсь собрать сразу, поэтапно добавляя страниц по 30-60 - были какие-то проблемы, связанные с зависаниями (может быть из-за нехватки или неудачного распределения памяти).
3. Иногда Prof. editor отказывается добавлять некоторые страницы - тогда эти странички открываю и повторно сохраняю графическим редактором.
4. Для прошивки ocr надо разбить книгу на странички в графическом формате (используется программа OCR DjVu - версия 2.4 удобнее всех более ранних http://djvuocr.ucoz.ru/load/), загрузить странички в FineReader (я привык использовать версию 8.0), провести распознавание и сохранить пакет. Та же программа OCR DjVu (используя FR-пакет) собирает книгу уже с текстовым слоем. У программы минус один - не любит кириллицу в именах файлов. Если исходная книга имеет имя файла на кириллице, то создается новый файл с именем из квадратиков. Но эту проблему легко решить, копируя имя старого файла, удаляя его и называя новый старым именем. Fine Reader иногда не распознает страничку, тогда в пакете на ней будет красная метка. Обычно сохраняю пакет, а страничку открываю графическим редактором и сохраняю в другом формате (напр., bmp вместо tiff) - теперь добавляю страничку к пакету и повторяю ее распознавание. Если оно удачное - страничку с меткой удаляю, а последней страничке пакета назначаю номер удаленной. Такое с Fine Reader'ом иногда случается, когда работает сразу много программ. Имя пакета в Fine Reader'e - всякий раз назначается новое - нельзя сохранить пакет с именем открытого пакета - тут важно не запутаться (проблема легко решается последующим удалением старого пакета и переименованием нового). Для OCR DjVu у меня имя пакета FR всегда одно - paket.
5. Чтобы не создавать кучи лишних файлов, все манипуляции по изготовлению djvu-книги удобнее делать в отдельном подкаталоге, а по окончании всех процедур удалить все лишнее.
6. Кроме ocr удобно в djvu-книге создавать закладки (bookmarks) - утилитой bm_tools. Это лучше обсудить в отдельной теме.
7. DjVu-книги с закладками удобнее читать, используя не стандартный Lizardtech-плагин, а программу WinDjView (появляется возможность переноса для длинных текстов в закладках). Она, кроме того, позволяет использовать прокрутку (скроллинг) страниц, как это делается в Acrobat Reader, например.
8. Иногда требуется не только собрать сканы в книгу, но и разбить сканы пополам - это оптом делается в FineReader'e. Так же оптом производится в FineReader'e и поворот сканов на 90 градусов (иногда и он требуется). Кроме того, Fine Reader позволяет создать набор картинок (после выше приведенных манипуляций) - я обычно сохраняю в формате tiff, серый, несжатый. Если лень бороться с серым фоном, то можно сохранить в формате tiff, черно-белый, G4. Качество книги, правда, будет похуже, но иногда вполне нормальное (если исходные сканы качественные).
9. Много интересного по сабжу темы можно найти тут: http://www.djvu-soft.narod.ru/scan/scan ... e_1_07.htm
1. При изготовлении djvu-книги обычно много времени уходит на чистку сканов от серых пятен, черных полос, россыпей точек и т.п.
Я обычно при чистке сканов использую Presto Image Folio - некое подобие фотошопа, но работает побыстрее. Программа позволяет менять размер страницы в пикселах, удалять выделенные фрагменты, изменять яркость и контраст фрагментов (эта процедура особенно полезна при удалении серого фона), поворачивать фрагменты на малый угол (тоже удобно очень). Единственное неудобство - работа с каждой страницей индивидуальная, нельзя оптом прогнать все страницы.
Оптовые действия возможны в Кромсаторе (но я никак его не освою в полной мере).
2. Сборку djvu обычно провожу djvu-Prof. editor'ом (5.0 или 6.0). Всю книгу целиком обычно не пытаюсь собрать сразу, поэтапно добавляя страниц по 30-60 - были какие-то проблемы, связанные с зависаниями (может быть из-за нехватки или неудачного распределения памяти).
3. Иногда Prof. editor отказывается добавлять некоторые страницы - тогда эти странички открываю и повторно сохраняю графическим редактором.
4. Для прошивки ocr надо разбить книгу на странички в графическом формате (используется программа OCR DjVu - версия 2.4 удобнее всех более ранних http://djvuocr.ucoz.ru/load/), загрузить странички в FineReader (я привык использовать версию 8.0), провести распознавание и сохранить пакет. Та же программа OCR DjVu (используя FR-пакет) собирает книгу уже с текстовым слоем. У программы минус один - не любит кириллицу в именах файлов. Если исходная книга имеет имя файла на кириллице, то создается новый файл с именем из квадратиков. Но эту проблему легко решить, копируя имя старого файла, удаляя его и называя новый старым именем. Fine Reader иногда не распознает страничку, тогда в пакете на ней будет красная метка. Обычно сохраняю пакет, а страничку открываю графическим редактором и сохраняю в другом формате (напр., bmp вместо tiff) - теперь добавляю страничку к пакету и повторяю ее распознавание. Если оно удачное - страничку с меткой удаляю, а последней страничке пакета назначаю номер удаленной. Такое с Fine Reader'ом иногда случается, когда работает сразу много программ. Имя пакета в Fine Reader'e - всякий раз назначается новое - нельзя сохранить пакет с именем открытого пакета - тут важно не запутаться (проблема легко решается последующим удалением старого пакета и переименованием нового). Для OCR DjVu у меня имя пакета FR всегда одно - paket.
5. Чтобы не создавать кучи лишних файлов, все манипуляции по изготовлению djvu-книги удобнее делать в отдельном подкаталоге, а по окончании всех процедур удалить все лишнее.
6. Кроме ocr удобно в djvu-книге создавать закладки (bookmarks) - утилитой bm_tools. Это лучше обсудить в отдельной теме.
7. DjVu-книги с закладками удобнее читать, используя не стандартный Lizardtech-плагин, а программу WinDjView (появляется возможность переноса для длинных текстов в закладках). Она, кроме того, позволяет использовать прокрутку (скроллинг) страниц, как это делается в Acrobat Reader, например.
8. Иногда требуется не только собрать сканы в книгу, но и разбить сканы пополам - это оптом делается в FineReader'e. Так же оптом производится в FineReader'e и поворот сканов на 90 градусов (иногда и он требуется). Кроме того, Fine Reader позволяет создать набор картинок (после выше приведенных манипуляций) - я обычно сохраняю в формате tiff, серый, несжатый. Если лень бороться с серым фоном, то можно сохранить в формате tiff, черно-белый, G4. Качество книги, правда, будет похуже, но иногда вполне нормальное (если исходные сканы качественные).
9. Много интересного по сабжу темы можно найти тут: http://www.djvu-soft.narod.ru/scan/scan ... e_1_07.htm
Последний раз редактировалось Jeffry Чт май 13, 2010 8:36 pm, всего редактировалось 3 раза.
Re: Создание книг в формате djvu
Возможно, я что-то упустил, но до сих пор мне не встречались tips & tricks how to pdf-->djvu.
Знающих прошу направить меня в нужное место.
Знающих прошу направить меня в нужное место.

Re: Создание книг в формате djvu
Наиболее быстро перевести pdf => djvu можно с помощью виртуального принтера, как минимум, размер файла станет поменьше, но ОCR прикрутить за пару кликов не получится. Кстати, с его помощью можно из любого приложения в djvu направить.
Re: Создание книг в формате djvu
Нет особого смысла переводить pdf в djvu. Для меня решающий фактор - качество книги, а размер - даже сотня-другая мегабайт - не имеет значения. Если качество pdf-книги хорошее, зачем ее преобразовывать? В общем, вопрос спорный.pdf-->djvu
Единственный случай - испорченные по OCR книги в pdf-формате (из-за неверно заданного языка при прошивке OCR или по другим причинам). Существенный недостаток pdf - невозможность удалить OCR, соответственно, невозможно повторное проведение распознавания.
В DjVu Prof Editor'e - как раз пара кликов - и запускается прошивка. Но качество ее похуже, чем с FineReader'ом - а (как выше написал)решающий фактор - качество книги (сам проводил тестирование качества OCR для 3 программ: Solo 3.1, Prof.Editor 5.0 и FineReader 7.0 + OCR DjVu на страничке плохого качества). К тому же с DjVu Prof Editor'ом процесс прошивки OCR долгий и может внезапно сорваться.ОCR прикрутить за пару кликов не получится
Re: Создание книг в формате djvu
недавно попробовал связку Pdftodjvu LE v0.1 + WinDjView 1.0.1 обе бесплатные. Первая перегоняет PDF за пару кликов и немного времени в DJVU вторая позволяет "крутить" страницы колесом мыши и имеет закладки на страницы, а не только миниатюры страниц. С PDFtoDJVU еще толком не разобрался, но кажется она позволяет оставлять текстовый слой из файла оригинала.
Для примера папка с Beilsteins handbuch der organischen chemie (Band 12) (Vierte auflage) в тифах (черно белые) весит 245,5 мегабайт, собранный в 1 PDF файл (сжат JBIG2 компрессором)(Спасибо коллеге 5-метокси направил и подсказал) весит 95,5 мегабайт, а DJVU уже 27,9 мегабайт.
А про предпочтения и любимые форматы, могу сказать словами народной мудрости: Кто то любит попа, кто то попадью, а кто то попову дочку...
Хотя я сам, то что сканировал перегоняю в pdf. Потому как создание DJVU из TIF нередко заканчивается какими то косяками
и сбоем программы
Для примера папка с Beilsteins handbuch der organischen chemie (Band 12) (Vierte auflage) в тифах (черно белые) весит 245,5 мегабайт, собранный в 1 PDF файл (сжат JBIG2 компрессором)(Спасибо коллеге 5-метокси направил и подсказал) весит 95,5 мегабайт, а DJVU уже 27,9 мегабайт.
А про предпочтения и любимые форматы, могу сказать словами народной мудрости: Кто то любит попа, кто то попадью, а кто то попову дочку...
Хотя я сам, то что сканировал перегоняю в pdf. Потому как создание DJVU из TIF нередко заканчивается какими то косяками

Re: Создание книг в формате djvu
Я когда разбирался с OCR тоже "попал" на глючную софтинку в статусе бета, не выполнявшей своего долгаbromin писал(а): Хотя я сам, то что сканировал перегоняю в pdf. Потому как создание DJVU из TIF нередко заканчивается какими то косякамии сбоем программы

-
- Сообщения: 9631
- Зарегистрирован: Вт дек 21, 2004 11:42 am
Re: Создание книг в формате djvu
Не люблю я ту дежавю... Все файлы, что я видел - 300 dpi ч/б. И кому оно нафиг надо??? Сейчас ( и года 3 назад) средний сканер без напряга дает 600. Далее акробат с распознавалкой - и цивильный документ. Да, он раза в 2-3 больше убогого дежавю. Ну и что?
Re: Создание книг в формате djvu
У меня комп - третий пень с 256 метрами ОЗУ!
300 дпи - идеально
300 дпи - идеально
Re: Создание книг в формате djvu
А я pdf не очень долюбливаю. Распознает текст плохо, поиск - часто не находит, что ищу. Перевел в djvu - и с поиском проблем намного меньше. Кроме того, поиск либо на латинице, либо на кириллице, а OCR в djvu с помощью FineReader - и то и другое. Для некоторых книг - напр., ин. яз. учебников или словарей это важно. И самое худшее - когда pdf из плохих сканов - просто сразу выбрасываю, независимо от самой книги (ocr иногда вообще не прошить).
В последнее время в интернете много развелось pdf (особенно журналов и журнальных статей), сделанных кривыми руками - в них поиск крокозябликов вместо слов. Переделать файлы - довольно трудоемко и часто ведет к потере качества изображения - тут бывшие преимущества pdf становятся недостатками.
В последнее время в интернете много развелось pdf (особенно журналов и журнальных статей), сделанных кривыми руками - в них поиск крокозябликов вместо слов. Переделать файлы - довольно трудоемко и часто ведет к потере качества изображения - тут бывшие преимущества pdf становятся недостатками.
Последний раз редактировалось Jeffry Пт авг 07, 2009 8:51 am, всего редактировалось 1 раз.
Re: Создание книг в формате djvu
300 dpi ч/б -- это отнюдь не пермаментное свойство данного формата. Более того, умные люди рекомендуют djvu-документы делать с разрешением 600 и более dpi (при этом, как ни странно, размер файла даже уменьшается).Polychemist писал(а):Не люблю я ту дежавю... Все файлы, что я видел - 300 dpi ч/б. И кому оно нафиг надо???
И насчет размера файлов -- на самом деле тоже важно, даже в наше время. Библиотечка из самых необходимых химических книг (~ 1000 шт.) в djvu на dvd или флешку поместится, в pdf - тоже поместится, но только через сколько то лет, когда флешки будут больше.

Re: Создание книг в формате djvu
Просьба к людям, выкладывающим пакеты сканов для изготовления е-книг, правильно нумеровать сканы еще при сканировании.
А именно: номера сканов должны быть 0001 - 0002 - 0003 и т.д., а ни в коем случае не 1, 2, 3 и т.д., поскольку считывание группы файлов в пакет Fine Reader'a происходит не по числам, а по первому символу имени файлов. Это устранит путаницу в расстановке страниц книги и не потребует переименования большого числа файлов вручную. Заранее спасибо.
А именно: номера сканов должны быть 0001 - 0002 - 0003 и т.д., а ни в коем случае не 1, 2, 3 и т.д., поскольку считывание группы файлов в пакет Fine Reader'a происходит не по числам, а по первому символу имени файлов. Это устранит путаницу в расстановке страниц книги и не потребует переименования большого числа файлов вручную. Заранее спасибо.
Re: Создание книг в формате djvu
Небольшая инструкция по добавлению закладок (bookmarks) в djvu (djv)
1. Найти в сети и скачать маленький пакет утилиты bm_tools
2. Файл, для которого предполагаем добавить закладки, копируем в папку bm_tools и переименовываем в book (это imho - удобнее).
3. Открываем book программой windjview (чтобы иметь возможность прокрутки) и тут же в соседнем окне создаем блокнотовский файл bm.txt Этот файл должен иметь форму, как на указанном примере:
Введение #3
Раздел 1 #7
Часть 1 #7
Глава 1 #7
Параграф 1.1 #7
То есть, сначала копируем (или пишем) текст закладки, затем - знак табуляции (tab), затем - знак номера #, затем - номер страницы е-книги (может не совпадать со страницей бумажного варианта)
Прибелы (см. пример) перед текстом обозначают вложение закладки в предыдущую (которая без пробела), число пробелов - т.н. уровень вложения. Внимательнее проверяем ошибки (не должно быть лишних пробелов перед знаком табуляции (и после номера страницы) и лишних знаков табуляции!!!) иначе программа проигнорирует команду написания закладок.
4. Файл bm.txt создан, остается написать командную строку (у меня - в таком виде):
C:\DJVU\bm_tools\EmbedBM.cmd C:\DJVU\bm_tools\book.djvu C:\DJVU\bm_tools\bm.txt
Командную строку можно написать единожды и хранить в блокнотовском файле (напр. bm-command).
5. Копируем командную строку и вставляем ее в Главном Меню в строку Выполнить...
6. Остается перенести book.djvu туда, откуда взяли и обратно переименовать.
1. Найти в сети и скачать маленький пакет утилиты bm_tools
2. Файл, для которого предполагаем добавить закладки, копируем в папку bm_tools и переименовываем в book (это imho - удобнее).
3. Открываем book программой windjview (чтобы иметь возможность прокрутки) и тут же в соседнем окне создаем блокнотовский файл bm.txt Этот файл должен иметь форму, как на указанном примере:
Введение #3
Раздел 1 #7
Часть 1 #7
Глава 1 #7
Параграф 1.1 #7
То есть, сначала копируем (или пишем) текст закладки, затем - знак табуляции (tab), затем - знак номера #, затем - номер страницы е-книги (может не совпадать со страницей бумажного варианта)
Прибелы (см. пример) перед текстом обозначают вложение закладки в предыдущую (которая без пробела), число пробелов - т.н. уровень вложения. Внимательнее проверяем ошибки (не должно быть лишних пробелов перед знаком табуляции (и после номера страницы) и лишних знаков табуляции!!!) иначе программа проигнорирует команду написания закладок.
4. Файл bm.txt создан, остается написать командную строку (у меня - в таком виде):
C:\DJVU\bm_tools\EmbedBM.cmd C:\DJVU\bm_tools\book.djvu C:\DJVU\bm_tools\bm.txt
Командную строку можно написать единожды и хранить в блокнотовском файле (напр. bm-command).
5. Копируем командную строку и вставляем ее в Главном Меню в строку Выполнить...
6. Остается перенести book.djvu туда, откуда взяли и обратно переименовать.
Re: Создание книг в формате djvu
Чрезвычайно рекомендую программу Scantailor для обработки изображений для создания дежавю. Ей достаточно скормить любые файлы (фото, сканы, да что угодно с изображением вашего бумажного источника знаний), и через некоторое время она выдает отличнейшим образом подготовленные тифы, которые можно склеить с помощью DjVu Small. На всю обработку затрачивается минимум времени, и не требуется ни фотошопов, ни дополнительных телодвижений по освоению того же скан кромсатора. Интерфейс также до боли понятен.
Обе программы бесплатны, и легко гуглятся.
Обе программы бесплатны, и легко гуглятся.
Re: Создание книг в формате djvu
Это просто суппер какой то!!! Эмоции захлестывают!!!Albo писал(а):Чрезвычайно рекомендую программу Scantailor для обработки изображений
Albo, огромное Гигаспасибо за Ваш пост. Скачал прогу думал придется репу морщить как с кромсатором. Ничего подобного! Все интуитивно понятно, книгу разрезал такую, почти правильно, на которой бы файн ридер захлебнулся (резал всегда им) . И ориентацию выправил до десятых градуса и поля наложил ровненько

У меня сегодня праздник!!!
Re: Создание книг в формате djvu
Albo, за мной мешок репы! Классная программа!
Кстати, а как можно все страницы djvu файла разом проэкспортировать в tiff-ы?
Кстати, а как можно все страницы djvu файла разом проэкспортировать в tiff-ы?
Re: Создание книг в формате djvu
Я это делаю программкой DJVUDecode.Upstream писал(а):Albo, за мной мешок репы! Классная программа!
Кстати, а как можно все страницы djvu файла разом проэкспортировать в tiff-ы?
Описание куда то засунул

Но все достаточно просто. Сейчас попробую объяснить.
1. Для начала запускаете командную строку. Файл с книжкой обычно переименовываю покороче например 1.djvu
2. Кидаете в одну папку файл 1.djvu и djvudecode.exe (допустим D:/0/)
3. дальше в командной строке D:\0>djvudecode 1.djvu 1.tif (в результате получаем многостраничный tif)
4. В оконцовке я распускаю многостраничный на одностраничные finereader ом.
Вот собственно кажется и все

ЗЫ: если файл большой то иногда возникает ощущение подвисания
ЗЫЫ: начиная с версии 9 FineReader понимает формат djvu
Re: Создание книг в формате djvu
С помощью того же DjVu Small. Выбираете файл, щелкаете Декодировать djvu, и собираете все странички в указанной папке. Это же вроде умеют и другие программы, но так проще всего, имхо, ибо проще - просто невозможноUpstream писал(а):Albo, за мной мешок репы! Классная программа!
Кстати, а как можно все страницы djvu файла разом проэкспортировать в tiff-ы?

Re: Создание книг в формате djvu
О программе Scan Tailor, о ее преимуществах, удобстве использования и возможных ошибках можно почитать тут:
Особенно радует возможность поворотов до десятых долей градуса, но все же еще кое-какие функции хотелось бы иметь в наличии.
Хочется иметь возможность рапознавания текста, выделения квадратиков нужных букв и заменять некоторые порченные буквы эталонно выбранной буковкой. Тогда будет возможность коррекции плохих страниц.
Код: Выделить всё
http://jenyay.net/blog/2009/04/30/scan-tailor-programma-dlya-obrabotki-otskanirovannykh-knig/
Хочется иметь возможность рапознавания текста, выделения квадратиков нужных букв и заменять некоторые порченные буквы эталонно выбранной буковкой. Тогда будет возможность коррекции плохих страниц.
Re: Создание книг в формате djvu
Для создания снимков экрана, фрагментов изображений, например, с теми же справочными данными из книги в формате дежавю или пдф, когда вся книга не нужна, а требуется только какой-либо ее небольшой фрагмент, есть целая куча специализированного ПО.
Один из бесплатных неплохих вариантов -программа Clip2Net весом пару Мб, которая захватит нужную часть экрана, сохранит в виде файла или загрузит на свой сервер (выдав в замен ссылку) сроком на 30 дней, или просто скопирует изображение в буфер обмена, чтобы использовать его в том же ворде.
В установленном виде занимает несколько Мб, при этом ничего не прописывает в систему (можно скопировать файлы из директории установки и использовать на любом ЭВМ), не оставляет на изображениях водяных знаков, доступны минимальные функции (обрезка, нанесение прямоугольника, овала, стрелок и т.п. разных цветов).
P.S. Сейчас для этих целей безоговорочно перешел на программу PicPick
Один из бесплатных неплохих вариантов -
В установленном виде занимает несколько Мб, при этом ничего не прописывает в систему (можно скопировать файлы из директории установки и использовать на любом ЭВМ), не оставляет на изображениях водяных знаков, доступны минимальные функции (обрезка, нанесение прямоугольника, овала, стрелок и т.п. разных цветов).
P.S. Сейчас для этих целей безоговорочно перешел на программу PicPick
Последний раз редактировалось Albo Вт ноя 20, 2012 12:16 am, всего редактировалось 1 раз.
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 4 гостя