Ранее я использовал Preview и Automator для извлечения текста из документов PDF, но они не работают с отсканированными. Как извлечь содержимое из отсканированных файлов с сохранением форматирования? Я не хочу платить за Adobe.
2 ответа
Под "отсканированным" я предполагаю, что вы имеете в виду, что документ содержит только текстовые изображения , а не текстовые символы. В этом случае используйте программное обеспечение для оптического распознавания символов (OCR).
Для ОС Windows есть FreeOCR, a9t9 и другие. Существует также программное обеспечение для Android, Linux и Mac, а также онлайн-сервисы на основе браузера.
Как уже было сказано, ваши отсканированные документы являются изображениями (текста). Чтобы понять текст, вам нужно будет запустить OCR (оптическое распознавание символов) над этим документом.
Для Mac доступно несколько продуктов для оптического распознавания текста, и, возможно, ваш сканер поставлялся с таким продуктом. Однако, запрашивая форматирование, вы требуете довольно сложных функций, которых нет в базовых продуктах. Поэтому вам может потребоваться оплатить это программное обеспечение OCR. С этой точки зрения вы можете пересмотреть Acrobat.