Библиотека knigago >> Компьютеры и Интернет >> Программы >> Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро


СЛУЧАЙНЫЙ КОММЕНТАРИЙ

# 961, книга: Офисный роман
автор: Терри Биссон

"Офисный роман" Терри Биссона - это краткий, но мощный научно-фантастический рассказ, умело исследующий скуку, лишения и скрытый потенциал повседневной жизни. История разворачивается в душном офисе, где два незаметных работника, Джерри и Корнелия, выполняют утомительные поручения. Однако за их неприметным фасадом скрываются пытливые умы, которые жаждут большего. По стечению обстоятельств Джерри обнаруживает заброшенную комнату, наполненную загадочными книгами и артефактами. Когда он...

TWDragon , 4u4undr - Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро
Книга - Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро.  TWDragon  , 4u4undr   - прочитать полностью в библиотеке КнигаГо
Название:
Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро
TWDragon , 4u4undr

Жанр:

Программы, Руководства и инструкции, Самиздат, сетевая литература, Литература ХXI века (эпоха Глобализации экономики), Книгоделие

Изадано в серии:

неизвестно

Издательство:

неизвестно

Год издания:

ISBN:

неизвестно

Отзывы:

Комментировать

Рейтинг:

Поделись книгой с друзьями!

Помощь сайту: донат на оплату сервера

Краткое содержание книги "Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро"

Эта мини инструкция в картинках, описывающая полный цикл создания электронной версии научно-технической книги, и предназначена для человека, искренне захотевшего сделать приемлемого качества е-книгу, но не знающего с чего начать.
Итак: перед вами взятая у приятеля, из библиотеки, или просто хорошая, интересная книга, которую хотелось бы иметь на компьютере. И не просто иметь, а иметь в таком виде, который позволил бы выполнять поиск по тексту, удобно читать книгу на экране монитора или на устройствах еВоок, а если это не научно-техническая или справочная литература — еще и читать на любимом сотовом телефоне, iPhon'e или PDA. В этом пошаговом руководстве, основанном на собственном опыте, я постараюсь рассказать о том, как «выжать» максимум результатов из проделанной простой, но иногда весьма утомительной работы по сканированию книги.
Пусть вас не испугает длина этого руководства и кажущаяся сложность сканирования и обработки книги. Процесс действительно довольно сложен и многоступенчат, но поверьте мне, описать все эти операции было гораздо труднее, чем выполнить их шаг за шагом.

Читаем онлайн "Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро". [Страница - 7]

например, когда книга готовится к печати полными разворотами на листах альбомного формата (так иногда собирают дубликаты в библиотеках). Если этот флажок установлен, на выходе вы получите страницы с полями, склеенные по переплету.

Книгаго: Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро. Иллюстрация № 16

Вкладка Files

На этой вкладке в поле Output folder (папка назначения) задается имя папки для выходных файлов, а в поле Ouput Prefix (префикс имени выходного файла) можно ввести «добавку» к имени файла, которая позволит отличить «сырые» сканы от обработанных. Параметры Start from / Step (Начальный номер/шаг) задают именование выходных файлов.

Особого внимания заслуживает группа параметров Ouput Format (выходной формат). В первом по счету списке выставляется формат упаковки TIFF-файла (уже упомянутый TIFF Uncompress). Следующий список задает разрешение вывода (DPI). Здесь нужно ОБЯЗАТЕЛЬНО выставить 600 dpi! Это включит оверсемплинг и облегчит в дальнейшем задачу распознавания, сжатия и печати.

Зачем нужен оверсемплинг?

При распознавании текста программа «оконтуривает» символы по их контрасту с окружающим полем страницы. Затем полученные контуры сравниваются с эталонными, содержащимися в языковой базе данных. Если процент сходства достаточно велик, контур признается распознанным как тот или иной символ шрифта.

В общих чертах, именно так работают алгоритмы OCR. Успех их работы сильно зависит от того, насколько велик абсолютный (в пикселах) размер символа в графическом файле. А этот самый размер напрямую зависит от разрешения файла. При разрешении 600 dpi на реальную ширину и высоту «бумажного» символа придется ровно вдвое больше пикселов графического изображения, чем при разрешении 300 dpi. Соответственно, вероятность успешного распознавания тоже вырастет, причем весьма существенно. Задача оверсемплинга — поднять разрешение скана до выходного, пересчитав определенным образом точки графического изображения.

Оверсемплинг позволяет впоследствии спасти изображение от дефектов сжатия (за счет оольшого числа точек они становятся незаметны), а также помогает вывести изображение на печать наилучшим образом. Например, при печати файла DjVu 300 dpi на полном формате (масштаб 100 %) шрифт получается «рваным» из-за того, что преобразование серого скана в чисто черно-белое изображение дает много дефектов по краям букв, а принтер, имея собственное разрешение немногим больше 300 dpi, не в состоянии их исправить. Совсем иное дело — при печати документа с разрешением 600 dpi. В этом случае входное изображение принтера, имеюшее огромное количество точек, «ужимается» в размер реальной бумажной страницы.

Особенности алгоритмов изменения размера приводят к тому, что границы символов разглаживаются, а резкость увеличивается.

Разница между сжатыми страницами с разным разрешением заметна даже при просмотре на экране: на 300 dpi все дефекты, не устраненные обработкой, становятся заметны, а иногда изображения (например, полученные с бледного скана) вообше приходят в негодность.


Список Color (цвет) задает цветность выходного изображения. Для черно-белого текста и одноцветных рисунков выставляется пункт BAV. для черно-белых фотографических иллюстраций — Gray, для полноцветных изображений — Color (24bit). Впрочем, установка цветности для страницы в целом чаще всего бывает не нужна, поскольку есть возможность обрабатывать рисунки отдельно.

Больше всего проблем возникает, когда часть текста верстается поверх изображения (типичный прием для верстки детских книг). Такие страницы желательно вообще не подвергать обработке Кромсатором, а сразу подвергать распознаванию и запаковывать в PDF.

Книгаго: Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро. Иллюстрация № 17
Вкладка Options.

Книгаго: Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро. Иллюстрация № 18

Оставить комментарий:


Ваш e-mail является приватным и не будет опубликован в комментарии.