Если я правильно понимаю вашу проблему, и она немного расплывчата, так это то, что у вас есть несколько файлов DjVu, которые вы хотели бы преобразовать в PDF. DjVu, которые вы хотите преобразовать, были сгенерированы из сканера, и, следовательно, базовый формат данных - это формат растрового изображения / растрового изображения / графического изображения.
Вы неправильно предполагаете возможности формата PDF (Adobe Spec) (статья в Википедии). Формат PDF в основном представляет собой простой язык разметки, который описывает, как форматировать и размещать текст и изображения на странице, выполнять базовое векторное рисование, а также имеет возможность кодировать данные изображения в нем. Язык разметки текста и описания страницы обычно затем кодируется с помощью алгоритмов сжатия LZW или Flate. Данные изображения сохраняются в формате JPEG (стр. 39), TIFF (стр. 71) или GIF (стр. 842).
В формате PDF не используется какая-либо новая технология, как в формате DjVu (DjVu Spec) (статья в Википедии). В основном DjVu сканирует весь документ и ищет вещи, которые он может объединить вместе, а затем оставляет ссылку на место, где появляется каждый объект. В этом отношении формат DjVu намного умнее, чем PDF. В некотором смысле формат DjVu больше похож на JPEG, чем на PDF, когда вы смотрите, как алгоритм работает во всем многостраничном документе.
Документ PDF, созданный сканером, - это просто серия страниц определенного размера, с JPEG-кодом, вставленным на каждую страницу. Вы можете запустить данные PDF через OCR (оптическое распознавание символов) и воссоздать документ в текстовом формате, что значительно уменьшит размер документа PDF. Документ PDF не имеет встроенного распознавания текста в этом формате, но некоторые читатели, такие как Adobe Reader, имеют встроенное распознавание текста, которое позволяет выполнять поиск в документе PDF типа JPEG.
Я также понимаю, что Adobe Acrobat имеет возможность обработки распознавания текста. Существуют и другие программы, которые приходят на ум OmniPage , а также ряд систем OCR с открытым исходным кодом .