19

У меня есть PDF отсканированной книги.

Я ищу бесплатное программное обеспечение, которое будет выполнять OCR, а затем предоставить возможность сохранить его в виде PDF или документа снова.

Есть один?

8 ответов8

5

Вы можете загрузить 30-дневную пробную версию Adobe Acrobat Pro и использовать функцию «Распознавание текста OCR» («Документ> Распознавание текста OCR> Распознать текст с помощью OCR ...».«). В диалоговом окне настроек выберите «Доступное для поиска изображение» в качестве стиля вывода. Это сохранит изображение страницы, но встроит текст OCR, так что документ будет доступен для поиска и позволит выбирать, копировать и вставлять текст.

После запуска OCR вам необходимо подтвердить или исправить слова, в которых OCR не уверен насчет использования функций «Найти подозреваемых OCR».

4

Если у вас есть учетная запись Google, то в Документах Google теперь есть функция для загрузки файла PDF и выполнения распознавания.

Я попробовал это сам, и это делает честный удар в по общему признанию хорошо отформатированном PDF.

Форматирование в значительной степени разрушено, но текст, кажется, выживает.

4

Следующие продукты были найдены в Интернете, но я ими не пользовался.

OCR онлайн

Терминал OCR

Терминал OCR - это онлайн-служба OCR, которая выполняет оптическое распознавание символов (OCR) для ваших отсканированных изображений и файлов PDF и преобразует их в редактируемые и текстовые документы с возможностью поиска.

Бесплатный OCR

Free-OCR.com - это бесплатный инструмент для оптического распознавания символов. Вы можете использовать это для распознавания любого изображения, которое вы предоставляете.
Эта услуга бесплатна, регистрация не требуется. Нам также не нужен ваш адрес электронной почты.
Просто загрузите ваши файлы изображений. Free-OCR принимает либо JPG, GIF, TIFF BMP или PDF (только первая страница). Единственным ограничением является то, что изображения не должны быть больше 2 МБ, не шире или не превышать 5000 пикселей, и существует ограничение в 10 загрузок изображений в час.

Maestro Recognition Server является коммерческим, но имеет демо-версию онлайн-тестирования.

Бесплатно программное обеспечение

FreeOCR - только для изображений.

FreeOCR - это программа для сканирования и распознавания, включающая в себя движок Tesseract free ocr, также известный как графический интерфейс Tesseract. Он включает в себя установщик Windows и очень прост в использовании и поддерживает многостраничные TIFF, факсимильные документы, а также большинство типов изображений, включая сжатые TIFF, которые механизм Tesseract самостоятельно не может прочитать.Теперь у него есть сканирование Твена.

pdfsandwich - pdf -> pdf конвертер.

pdfsandwich - это инструмент командной строки для отсканированных книг или журналов OCR. Он способен распознавать макет страницы даже для многоколоночного текста.

По сути, pdfsandwich - это скрипт-обертка, который вызывает следующие двоичные файлы: convert, cuneiform, gs и hocr2pdf. Известно, что он работает в системах Unix и был протестирован в Linux и MacOS X. Он поддерживает параллельную обработку в многопроцессорных системах.

2

Cuneiform + hocr2pdf + Ghostscript: DIY-решение с открытым исходным кодом.

Я опубликовал ответ, в котором изложено решение, включающее в себя версию системы распознавания Cuneiform с открытым исходным кодом и hocr2pdf вместе с Ghostscript для объединения страниц PDF.

Это было специально для Linux, но вы также можете получить Cuneiform и Ghostscript для Windows. Я не уверен насчет hocr2pdf или его эквивалента.

1

Вот очень странный метод, который включает размещение индекса Google и OCR для вас на веб-сайте, а затем получение его.

0

Ваш запрос кажется сложным решением проблемы, хотя, возможно, я неправильно понимаю проблему. Во всяком случае:

Почему бы не получить PDF Writer, который позволит вам вводить данные непосредственно на странице PDF?

0

Попробуйте PDFCubed.com Ничего не установить, все сделано онлайн. Вы можете отправить свои документы для обработки через Интернет, электронную почту или Dropbox. Отсканированные PDF-файлы и TIF-файлы преобразуются в текстовые PDF-файлы с возможностью поиска и затем могут быть получены через Интернет, электронную почту или Dropbox.

0

Установите Imagemagick. Откройте окно cmd или терминал:

convert myfile.pdf myfile-%02d.jpg

Вывод будет 1 JPG-файл для каждой страницы в вашем PDF, myfile-00.jpg, myfile-01.jpg и т.д.

Передайте каждое изображение через программу ocr. У меня нет большого опыта с этим, но, кажется, есть много вариантов.

Конвертировать каждую страницу текста обратно в PDF. Вы можете сделать это снова с помощью imagemagick, но есть и другие способы:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .