Предположим, у вас есть 2 "отсканированных" файла PDF.
- Большой, но без текстового слоя.
- Меньше (с изображениями низкого качества), но с правильным текстовым слоем.
Оба файла содержат одинаковые изображения, отличающиеся только сжатием.
Цель состоит в том, чтобы встроить тот же текстовый слой в 1-й PDF.
«Просто OCR 1-й файл» не является решением. Я знаю, что Acrobat (и некоторые другие инструменты) способны распознавать текст без изменения слоя изображения, но я не доволен их качеством распознавания.
Итак, я вижу два возможных пути:
- Экспорт-импорт текстового слоя как-то
- Заменить изображения в слое изображения как-то.
Что касается 1-го пути, я ничего не нашел. Что касается второго способа, я нашел два инструмента, которые довольно близки к hocr2pdf и pdf2text, но, насколько я понял, их все еще недостаточно. :(
PS: используйте пример:
Я только что нашел другой пример, где такая операция полезна систематическим образом.
Если вы отсканировали pdf-1 (без текстового слоя) с, скажем, сжатием изображения "jpg", Abbyy finereader предоставит вам OCR'd pdf, pdf-2. Он будет либо достаточно большим, если вы выберете сжатие без потерь, либо качество изображения будет значительно ниже, чем у pdf-1. Во многих случаях лучший выбор - сохранить сжатие исходного изображения как есть и не пережимать изображение.