Я использую Automator в сочетании с Abbys Finereader для просмотра папки для новых отсканированных документов PDF. Finereader распознает документ и экспортирует его в новый PDF-файл в той же папке. Уже месяц я пользуюсь настройкой экспорта "text over page image". Руководства пользователя поясняют этот параметр:
Эта опция сохраняет фон и изображения исходного документа и помещает распознанный текст поверх них. Обычно для файла PDF, сохраненного с использованием этого параметра, требуется больше места на диске, чем для файла, сохраненного с включенной опцией «Только текст и изображения». Полученный PDF-документ полностью доступен для поиска. В некоторых случаях внешний вид получившегося документа может немного отличаться от оригинала.
Проблема в том, что в некоторых PDF-файлах, которые были отсканированы и "распознаны", много неправильных символов, но я только что узнал об этой ошибке.
Можно ли каким-либо образом "откатиться" на версию без OCR? Я пытался экспортировать PDF как файл TIFF, но в нем есть и неправильные символы ...
Есть идеи?