Я хочу, чтобы OCR PDF, чтобы сделать его для поиска.
Предположим, у вас есть документ PDF, который был сделан с помощью сканера или иным образом состоит из данных изображения, но не содержит текстовых данных. Такой PDF не может быть найден читателями PDF или приложениями для поиска на рабочем столе. pdfocr - это простая утилита, которую я создал, которая берет файл PDF, а затем генерирует новую, с добавленным текстовым слоем, так что она доступна для поиска вашим устройством чтения PDF и может быть проиндексирована вашим приложением для поиска на рабочем столе, но при печати она идентична.
Из Howto: Сделайте сканированные PDF-файлы доступными для поиска (OCR) с помощью pdfocr
В настоящее время программное обеспечение для Windows, такое как FreeOCR, только делает TXT-файл из PDF-файла, но я хочу, чтобы этот оригинальный PDF-файл был доступен только для поиска.