WinDjView - как сканировать и создавать книги
Прислано Pretich December 25 2019 16:01:35

Базовые понятия DjVu-книгосканирования

 

В этой небольшой статье собран список общих понятий и терминов, которые необходимо знать каждому, кто сканирует бумажные книги в формат DjVu. Здесь вынужденно даётся лишь краткое описание - подробнее ищите в Интернете...

 

Если Вы сканируете книги для DjVu - проверьте себя - знаете ли Вы эти понятия.

 

Основные постулаты (Советы опытных книгосканировщиков)

 

Наиболее важные:

 

1. Не используйте программу ABBYY FineReader версий 7, 8 или ниже для сканирования книг. Она корёжит получаемые скан-изображения страниц книги. Можно использовать программу ABBYY FineReader 9 для этого - но перед сканированием сбросьте там в опциях галку "Исправить перекос изображения".

 

2. Не сканируйте книги в чёрно-белом режиме (Black-White или Line Art или 1-bit), а ТОЛЬКО в режиме серого (Greyscale, или 8-bit) или цветного (Color, или 32-bit) - если книга содержит цветные рисунки. Сканирование в чёрно-белом режиме приводит в итоге к необратимому ухудшению качества получаемой DjVu-эл.книги. Данный режим сканирования задаётся в интерфейсе сканера - т.е. в том окне, которое появляется после нажатия в программе кнопки "Сканировать".

 

3. Не сканируйте в формат JPG. Формат JPG "размывает" скан-изображения страниц книги.

 

4. Не используйте опцию "Заменять неуверенно-распознанные символы их изображениями" - когда создаёте Pdf-эл.книгу в ABBYY FineReader - такие эл. книги выглядят ужасно.

 

Прочее:

 

5. Сканируйте книги в формат TIF и с разрешением не менее 300 DPI. Для наиболее высокого качества сканируйте с разрешением 600 DPI.

 

6. Не пожалейте 2-3 вечера и освойте использование таких программ, как ScanKromsator 5.93 и BookRestorer 4.2.1. Эти программы позволяют радикально облагородить "сырые" сканы (т.е. получаемые непосредственно от сканера) перед закодированием их в формат DjVu.

 

7. Не используйте формат Pdf для создания электронной версии бумажной книги. Взамен используйте формат DjVu (кроме случаев полной ручной свёрстки текстовой Pdf-эл.книги). Электронные книги в формате DjVu занимают меньший размер (по сравнению с Pdf), не "тормозят" в просмотрщике (в отличие от Pdf), и имеют более чёткий текст, чем Pdf.

 

8. Для просмотра файлов в формате DjVu под Windows используйте программу WinDjView - все прочие варианты значительно хуже.

 

9. Сохраняйте полученные "сырые" сканы книг на болванку (CD-R или DVD+R) - чтобы обезопасить себя от их случайной утраты.

 


Что такое "качественная" DjVu-книга? Каков именно максимальный уровень качества, который можно достичь при создании DjVu-книги?


 

Концептуальная схема DjVu-книгосканирования

 

1. Сканирование бумажной книги. В результате получаются т.н. "сырые сканы"- серые или цветные необработанные изображения страниц книги. Смысл - получение "сырья" для будущей электронной книги. Рекомендуемая программа - Irfan View.

 

2. Обработка сырых сканов. Это "облагораживание" сырых сканов (другое название - "кромсание"). Смысл - задать хорошее качество будующей электронной книги. Иначе (если довольствоваться "сырыми сканами") такой электронной книгой будет практически невозможно воспользоваться. Рекомендуемая программа - ScanKromsator, BookRestorer.

 

3. Кодирование обработанных сканов в формат DjVu (можно в Pdf, но это хуже). Смысл - радикально уменьшить размер "облагороженных" сканов без серьёзной потери качества. В результате электронными книгами столь малого размера становится возможным обмениваться через Интернет. Есть и другие плюсы. Рекомендуемая программа - DjVu Small, Document Express Enterprise 5.1 (DEE 5.1).

 

4. Добавление текстового OCR-слоя (не обязательно). Смысл - дать читателям возможность копирования цитат, а также поиска по ключевым словам. Обе эти возможности довольно нужны и важны. Рекомендуемая программа - ABBYY FineReader 8.0, DjvuOCR 2 и выше.

 


Основные термины

 

Двоичное исчисление - Способ записи любого числа при помощи единиц и нулей. Производные понятия - "восьмеричное исчисление", "шестнадцатеричное исчисление".

 

Растровое изображение - Неформализованная картинка, хранимая в виде массива пикселей.

 

Векторное изображение - Формализованная картинка, хранимая в виде команд на построение изображения.

 

Пиксель - Элементарный элемент растрового изображения. Имеет монотонный цвет по всей своей площади.

 

Глубина цвета - Битовая разрядность растрового изображения. Количество бит, выделяемое для описания одного пикселя изображения, например: 1 - для чёрно-белого (или B/W), 8 - для серого (или Grey), 24 - для цветного (или Color).

 

Чтобы выяснить глубину цвета данного файла, нужно щёлкнуть правой кнопкой мыши на пиктограмме файла, и выбрать (в WinXP): Свойства -> Вкладка "Сводка" -> Кнопка "Дополнительно":

 

Как выяснить глубину цвета изображения на компьютере?

 

BW (или B/W) - Чёрно-белое изображение, т.е. "Black and White". Каждый пиксель описан 1 битом, поэтому изображение содержит лишь 2 цвета - чёрный и белый. Часто называется также "битмап" (bitmap) или "чёрно-белые сканы", или "bw", а также "Line Art" - штриховая графика.

 

Greyscale (или Grayscale) - Серое изображение. Каждый пиксель описан 1 байтом (т.е. 8 бит), поэтому изображение содержит 256 оттенков серого цвета. Часто называется также "изображение в градациях серого", или "полутоновое изображение", или просто "серые сканы".

 

Color - Цветное изображение. Каждый пиксель описан 4 байтами (т.е. 32 бита) и формируется из смеси красного, синего, зелёного цветов (по 1 байту на каждый такой канал цвета) плюс 1 байт идёт на описание прозрачности, поэтому изображение содержит 16,7 млн. цветных оттенков.

 

Бинаризация - Процедура преобразования из Greyscale или Color в BW. Может быть (в зависимости от алгоритма) пороговой, адаптивной, энтропийной, и т.д.

Порог бинаризации - Номер серого цвета, всё светлее которого становится белым, а всё темнее - чёрным (при бинаризации).

 

Разрешение - Условная величина. Количество пикселей на единицу условной метрической длины растрового изображения. Измеряется в DPI (dots per inch) - "точек на дюйм". Значение DPI, длина и ширина изображения в пикселях хранятся в заголовке растрового файла - и, исходя из этих параметров, графические программы вычисляют условные метрические длину и ширину растрового файла (в дюймах или сантиметрах).

 

Ресемплинг - (англ. "Resampling" - "Перевыборка" ). Процедура "переразбиения" на пиксели растрового изображения - ради увеличения/уменьшения количества пикселей изображения. При этом всегда изменяется разрешение (DPI) и всегда меняется размер файла растрового изображения. Не путать с "ресайзингом" - изменением условных метрических размеров изображения с пропорциональным изменением его разрешения - при этом размера файла изображения НЕ МЕНЯЕТСЯ.

 

Повышающий ресемплинг (или Апсемплинг - от англ. "Upsampling"). Частный случай ресемплинга. Процедура увеличения количества пикселей в изображении за счёт интерполяции цветов соседних пикселей. Не добавляет реальную информацию в изображение.

 

Понижающий ресемплинг (или Даунсемплинг - от англ. "Downsampling"). Частный случай ресемплинга. Процедура уменьшения количества пикселей в изображении. Необратимо уменьшает реальную информацию в изображении. Также называется ещё "Субдискретизация".

 

Яркость - Субъективный показатель "осветлённости" изображения. Влияет на все пиксели изображения. Большая или меньшая яркость задаётся просто оптовым увеличением/уменьшением номеров цветов всех пикселей изображения.

 

Контрастность - Степень "различности" самых светлых и самых тёмных пикселей изображения. При увеличении контрастности пикселы, имеющие яркость выше некоторого значения, приобретают еще большую яркость, а пикселы, имеющие яркость ниже некоторого значения, становятся еще темнее.

 

Гамма - Параметр, влияющий на среднеяркие пиксели ("антипод" контрастности). При изменении гаммы самые светлые и самые тёмные пиксели изображения не меняются.

 

Гистограмма - Линейно-столбчатый график, отображающий процентное распределение яркости по всем пикселям изображения. Служит наглядным измерительным инструментом, характеризующим изображение.

 

Муар - Нежелательный узор, возникающий при наложении двух периодических сетчатых рисунков.

 

Dithering (Дизеринг, или "Растрирование", а также "Клиширование") - Автоматическая процедура, преобразующая Greyscale-изображение в чёрно-белое особым способом - исходное изображение рисуется мелкими чёрно-белыми точками одинакового размера, но через точно алгоритмически рассчитанное расстояние друг от друга. В результате достигается оптическая иллюзия исходного Greyscale-изображения, хотя рисунок уже на самом деле чёрно-белый. Dithering применяется для бинаризации Greyscale-рисунков на сканах книг, т.к. обычная бинаризация нередко портит такие рисунки.

 

Deskew - (От англ. "skew" - наклон, склон, скос, уклон). "Дескью" (также "Ортогонизация"), или автоматическая процедура устранения углового перекоса страницы.

 

Когда мы сканируем лист бумаги с текстом, то, как правило, кладём этот лист на стекло сканера не строго параллельно сторонам сканера - а под небольшим углом. Поэтому на полученном скане строки текста выглядят не горизонтально. Алгоритм Deskew автоматически вычисляет угол перекоса и поворачивает скан целиком на этот найденный угол так, чтобы строки текста стали горизонтальными.

Обработка сканов текста, как выровнять текст по горизонтали?

 

Скан до Deskew

Deskew выравнивание текста отсканированной книги

 

Скан после Deskew

 

Despeckle - (От англ. "speckle" - крапинка, пятнышко). "Деспекл", или автоматическая процедура удаления мелких "соринок" на скане. По своей природе работает только на чёрно-белых сканах - на Greyscale и Color сканы не оказывает должного эффекта.

 

При сканировании текста на полученном скане часто оказываются многочисленные мелкие и мельчайшие тёмные "крапинки" (спеклы) - из-за высокой чувствительности сканирующей головки сканера. Алгоритм Despeckle автоматически удаляет такой "мусор" со скана.

 

обработка сканов - чистый текст безх серого фона, как сделать?

 

Скан до Despeckle

Despeckle обратока сканов с текстом, чистый четкий текст

 

Скан после Despeckle

 

DPI - "Разрешение".

 

TWAIN-интерфейс - Стандартизованный программный язык, при помощи которого сканирующая программа "общается" со сканером. Необходим для того, чтобы любая сканирующая программа могла "понимать" любой сканер. Большинство современных сканеров поддерживают TWAIN-интерфейс.

 

Anti-aliasing - Процедура сглаживания "зубцов" кривых линий на растровых изображениях.

 

OCR - Optical Character Recognition - технология автоматического распознавания текста на его сканированном изображении. Это основная цель такой программы, как, например, ABBYY FineReader.

 


Форматы растровой графики

 

Основной рабочий графический формат при DjVu-сканировании - это формат TIF. Он включает в себя несколько "подформатов" или режимов - без сжатия, со сжатием, и т.д. Обратите внимание на 2 популярных режима (со сжатием данных) TIF-файла:

 

Режим LZW - применяется в серых и цветных TIF-файлах.

 

Режим CCIT FAX G4 - применяется в чёрно-белых TIF-файлах.

 

Важная деталь: оба этих режима дают сжатие БЕЗ ПОТЕРЬ (каждый для своего класса глубины цвета).

 

Эти 2 режима наиболее широко применяются в сканобработке (т.к. они дают наименьший "естественный" размер файлов).

 

Возьмите любой TIF-файл и попробуйте сохранить его в режимах TIF (LZW) или TIF (CCIT FAX G4) в каком-нибудь графической программе - например, Irfan View или ACDSee. Посмотрите, насколько при этом уменьшился размер файла. Обратите внимание, что при сохранении серого или цветного изображения в режиме CCIT FAX G4 оно становится чёрно-белым.

 


Термины, используемые при работе с программой СканКромсатор

 

как работать с программой СканКромсатор - все основные шаги

Сдвоенный разворот

сканирование и обработка книг в программе СканКромсатор

Одиночный разворот

 

Сдвоенный разворот - Скан, на котором видны изображения 2-х соседних страниц бумажной книги. Такие сканы получаются в случае малоформатных бумажных книг - когда весь разворот целиком помещается на стекле A4-сканера.

 

Левая страница - Изображение левой страницы книги на сдвоенном развороте.

 

Правая страница - Изображение правой страницы книги на сдвоенном развороте.

 

Одиночный разворот - Скан, на котором видно изображение только одной страницы бумажной книги. Такие сканы получаются в случае крупноформатных бумажных книг - когда на стекле A4-сканера помещается только одна страница книги (а не разворот).

 

Ошмёток - Бесполезная часть соседней страницы (на одиночном развороте) в виде вертикальной полосы.

 

ОВ-символ - Малоразмерные смысловые элементы текста, далеко отстоящие от основной массы текста на скане. Например, номера страниц, элементы оглавления, значки параграфов, подписи к рисункам. Алгоритму, распознающему на скане положение контура текста, трудно опознать эти элементы как смысловые - для этого потребовалось бы проводить полноценный OCR текста на скане.

 


Понятия, используемые при работе с форматом DjVu

 

1. Тип DjVu-файла

 

Чтобы узнать, какой перед нами тип DjVu-файла, откройте его в WinDjView, и щёлкните правой кнопкой мыши на его изображении. В появившемся контекстном меню появится пункт "Информация о странице". Если выбрать этот пункт, то мы увидим примерно такое окно:

 

какой тип выбрать Серый или цветной DjVu-файл для книги?

Чёрно-белый DjVu-файл размер маленький, но изображение низкого качества

Серый или цветной DjVu-файл

Чёрно-белый DjVu-файл

 

Если в этом окне присутствуют многочисленные записи, содержащие слово "IW44" - значит, перед нами либо серый, либо цветной DjVu-файл. Если же в этом окне относительно мало записей, и нет упоминания о "IW44" - значит, это чёрно-белый DjVu-файл.

 

1. Наличие/отсутствие встроенного OCR-текста

 

Для того, чтобы узнать, содержит ли данный DjVu-файл встроенный OCR-текст, нажмите на панели управления WinDjView кнопку "Режим выделения" (с рисунком в виде буквы "I" и с маленьким чёрным треугольничком сбоку):

 

нажмите на панели управления WinDjView кнопку

 

Курсор мыши примет такую форму: "I".

 

Затем попробуйте выделить курсором мыши произвольный участок текста. Если данный DjVu-файл содержит встроенный OCR-текст, то выделяемый мышью текст подсветится чёрным цветом:

 

Как встроить в DjVu-файл встроенный OCR-текст

 

Теперь можете щёлкнуть правой кнопкой мыши по произвольному месту подсвеченного чёрным текста и в появившемся контекстном меню выбрать пункт "Скопировать текст". При этом выделенный текст скопируется в буфер обмена, откуда его можно будет вставить в любой текстовый редактор - MS Word, NotePad, и т.п.

 

Существуют поисковые программы, которые осуществляют поиск по ключевым словам по группе DjVu-книг. Эти программы анализируют встроенный OCR-текст в каждой DjVu-книге из группы поиска.

 

3. Наличие/отсутствие букмарков. Букмарки (другие названия: Закладки, Дерево-оглавление, Bookmarks, Outline) - это навигационный механизм по DjVu-книге. Если DjVu-книга содержит букмарки, то тогда в WinDjView появляется дополнительная вкладка "Содержание". При нажатии на эту вкладку открывается окно содержания следующего вида:

 

Букмарки - это стандартный навигационный механизм

 

Букмарки - это стандартный навигационный механизм, предусмотренный официальными спецификациями формата DjVu. Практически любой современный DjVu-просмотрщик способен отображать букмарки. Исключение составляет программа OpenDjVu - имеющая свой особый формат букмарков, несовместимый со стандартным.

 


Автор: monday2000