Я использую Automator в сочетании с Abbys Finereader для просмотра папки для новых отсканированных документов PDF. Finereader распознает документ и экспортирует его в новый PDF-файл в той же папке. Уже месяц я пользуюсь настройкой экспорта "text over page image". Руководства пользователя поясняют этот параметр:

Эта опция сохраняет фон и изображения исходного документа и помещает распознанный текст поверх них. Обычно для файла PDF, сохраненного с использованием этого параметра, требуется больше места на диске, чем для файла, сохраненного с включенной опцией «Только текст и изображения». Полученный PDF-документ полностью доступен для поиска. В некоторых случаях внешний вид получившегося документа может немного отличаться от оригинала.

Проблема в том, что в некоторых PDF-файлах, которые были отсканированы и "распознаны", много неправильных символов, но я только что узнал об этой ошибке.

Можно ли каким-либо образом "откатиться" на версию без OCR? Я пытался экспортировать PDF как файл TIFF, но в нем есть и неправильные символы ...

Есть идеи?

1 ответ1

0

Поскольку вы написали, что выбрали "текст поверх изображения страницы", у вас все равно должны быть оригинальные отсканированные изображения в ваших файлах PDF. Чтобы вернуть его: Если у вас есть Adobe Acrobat, есть опция "Сохранить как"> "Изображение"> "JPG", "TIFF" и т.д. В противном случае используйте бесплатный редактор PDF, например PDF-XChange Viewer, и в меню "Файл" выберите "Экспорт"> "Экспорт в изображение". и выберите формат изображения, например, TIFF. Таким образом, я могу вернуть свои документы OCRed PDF (текст + изображение) обратно к первоначально отсканированным изображениям.

Вы написали, что пытались экспортировать их обратно в изображения (в Finereader?) и получающиеся изображения все еще содержали "неправильные символы". Похоже, вы выбрали не "текст поверх изображения страницы", а опцию, которая не сохраняет отсканированное изображение, а восстанавливает его макет с помощью текста OCRed (Adobe Acrobat называет это ClearScan). Эта функция восстанавливает компоновку сканирования как можно ближе к тексту OCRed в наиболее подходящем фонде и не сохраняет отсканированное изображение в PDF.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .