1

Я хочу, чтобы OCR PDF, чтобы сделать его для поиска.

Предположим, у вас есть документ PDF, который был сделан с помощью сканера или иным образом состоит из данных изображения, но не содержит текстовых данных. Такой PDF не может быть найден читателями PDF или приложениями для поиска на рабочем столе. pdfocr - это простая утилита, которую я создал, которая берет файл PDF, а затем генерирует новую, с добавленным текстовым слоем, так что она доступна для поиска вашим устройством чтения PDF и может быть проиндексирована вашим приложением для поиска на рабочем столе, но при печати она идентична.

Из Howto: Сделайте сканированные PDF-файлы доступными для поиска (OCR) с помощью pdfocr

В настоящее время программное обеспечение для Windows, такое как FreeOCR, только делает TXT-файл из PDF-файла, но я хочу, чтобы этот оригинальный PDF-файл был доступен только для поиска.

1 ответ1

1

Adobe Acrobat обладает функциональностью, на которую вы ссылаетесь. В Acrobat 10/11 функциональность находится в разделе "Распознать текст" инструментов (см. Официальную документацию). Та же функциональность была доступна в более старых версиях, но доступ к ней был несколько иным (см . Блог Adobe).

Вы можете выполнить распознавание текста на любой или на всех страницах по отдельности, и после применения распознавания файл PDF выглядит идентично (но затем доступен для поиска).

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .