Возможный дубликат:
Извлечение текста из.PDF отсканированная книга
Как сделать OCR на PDF-документе?
У меня есть руководство в формате> 200 страниц, которое было создано путем сканирования печатной копии. Я хотел бы преобразовать его в текстовый формат с возможностью поиска, но мне не удалось найти инструмент для этого. Результаты поиска Google сильно загрязнены пробным программным обеспечением, которое может выполнять только первые несколько страниц файла. Единственное действительно бесплатное приложение, которое я обнаружил, рендерер FreeOCR pdf не может обработать что-либо, кроме первых нескольких страниц файла.
Google PDF Viewer делает OCR; но, по-видимому, не предоставляет никакой опции экспорта, кроме копирования / вставки; помимо того, что он очень утомителен, он помещает в буфер обмена только открытый текст; это означает, что я потеряю все штриховые рисунки и значительное форматирование из-за горизонтального размещения.