2

Одним из (многих) преимуществ сжатия отсканированной страницы с помощью DjVu является то, что она не дублирует символы:

… Сжатие битовых изображений, которое использует повторы практически идентичных форм на странице (например, символы) для эффективного сжатия текстовых изображений.

К сожалению, функция экспорта в PDF DjView (и его аналога командной строки ddvju) отбрасывает это преимущество и отображает одно изображение для каждой страницы. В результате PDF-файл обычно в 2 раза больше файла DjVu.

Поскольку формат PDF более чем способен сохранять изображение один раз и многократно отображать его на странице, мне было интересно, существуют ли какие-либо инструменты, которые генерируют оптимизированный PDF-файл, сохраняющий сжатую структуру DjVu.

2 ответа2

0

Если я правильно понимаю вашу проблему, и она немного расплывчата, так это то, что у вас есть несколько файлов DjVu, которые вы хотели бы преобразовать в PDF. DjVu, которые вы хотите преобразовать, были сгенерированы из сканера, и, следовательно, базовый формат данных - это формат растрового изображения / растрового изображения / графического изображения.

Вы неправильно предполагаете возможности формата PDF (Adobe Spec) (статья в Википедии). Формат PDF в основном представляет собой простой язык разметки, который описывает, как форматировать и размещать текст и изображения на странице, выполнять базовое векторное рисование, а также имеет возможность кодировать данные изображения в нем. Язык разметки текста и описания страницы обычно затем кодируется с помощью алгоритмов сжатия LZW или Flate. Данные изображения сохраняются в формате JPEG (стр. 39), TIFF (стр. 71) или GIF (стр. 842).

В формате PDF не используется какая-либо новая технология, как в формате DjVu (DjVu Spec) (статья в Википедии). В основном DjVu сканирует весь документ и ищет вещи, которые он может объединить вместе, а затем оставляет ссылку на место, где появляется каждый объект. В этом отношении формат DjVu намного умнее, чем PDF. В некотором смысле формат DjVu больше похож на JPEG, чем на PDF, когда вы смотрите, как алгоритм работает во всем многостраничном документе.

Документ PDF, созданный сканером, - это просто серия страниц определенного размера, с JPEG-кодом, вставленным на каждую страницу. Вы можете запустить данные PDF через OCR (оптическое распознавание символов) и воссоздать документ в текстовом формате, что значительно уменьшит размер документа PDF. Документ PDF не имеет встроенного распознавания текста в этом формате, но некоторые читатели, такие как Adobe Reader, имеют встроенное распознавание текста, которое позволяет выполнять поиск в документе PDF типа JPEG.

Я также понимаю, что Adobe Acrobat имеет возможность обработки распознавания текста. Существуют и другие программы, которые приходят на ум OmniPage , а также ряд систем OCR с открытым исходным кодом .

0

Я не знаю ни одного способа использования Linux, но с помощью Windows программа DjVuToy будет делать то, что вы хотите. Он сохраняет слои отдельно и конвертирует их по отдельности из DjVu в PDF-эквивалент. Размер файла останется примерно таким же, и теперь документ можно будет просмотреть с помощью большинства программ чтения PDF.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .