У меня есть файл PDF, который представляет собой отсканированную форму, содержащую изображения, таблицы и текст.

Я хотел бы запустить программу (не онлайн-инструмент) для файла и сделать его текстовый файл, содержащий слова. Не слишком суетиться по поводу форматирования.

Обратите внимание, что это не повторение «Преобразовать pdf в текст, игнорируя структуру», поскольку это относится к тексту в простых документах PDF, а не к отсканированным изображениям, сохраненным в формате PDF.

1 ответ1

0

Если авторы не имеют доступа к исходному файлу и средству разработки, отсканированный PDF-файл можно преобразовать в документ Word с помощью оптического распознавания символов (OCR). OCR PDF может затем использоваться для преобразования PDF в доступные и доступные для поиска текстовые документы.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .