У меня есть PDF, который прекрасно открывается в Adobe Reader XI. Он отображается нормально, не имеет пароля и т.д. Я пытаюсь сохранить их в текст для автоматизации работы, но это не работает.

Когда я захожу в File->Save As Other->Text , сохраняю его как текстовый файл, который сохраняется без ошибок.

Когда, когда я просматриваю текстовый файл, он не читается. Он имеет такие данные, как:

G+G+/-. & 6H, GH7- & IE &

Я могу убедиться, что некоторые PDF-файлы, например, с веб-сайта AT & T, хорошо работают с этим, но у меня не работают PDF-файлы. Почему это, как я могу преобразовать их в обычный текст? Они не защищены паролем или тому подобное.

Это не было OCR. Я могу выделить слова, буквы и т.д.

Я проверил в разделе "Безопасность" на свойствах:

Метод безопасности: нет безопасности

Может быть открыт: Все версии Acrobat

Печать: разрешено

Копирование контента: разрешено

1 ответ1

0

PDF-файлы могут быть созданы различными способами. Если PDF был создан с помощью сканера, он может или не может пройти OCR (оптическое распознавание символов). Если OCR был выполнен, у вас был бы текстовый слой, который в некоторой степени соответствует макету графического слоя (что вы обычно видите). Точность текста OCR редко составляет 100%. Если вы печатаете в PDF, скажем, из Google Docs или Microsoft Word, текстовый слой будет на 100% точным. Похоже, PDF-файл, который вы пытаетесь сохранить, является первым.

Самый простой способ, который я нашел для тестирования и просмотра текстового слоя, - это использовать бесплатную программу чтения PDF под названием Foxit Reader. У них есть вкладка просмотра с опцией "Просмотр текста". Смотрите скриншот ниже. Если на текстовом слое отображается искаженный текст, это объяснит, почему в Adobe Reader XI «Сохранить как другой> текст» отображается искаженный текст.

Как говорится, мусор на входе, мусор на выходе (GIGO).

Опции просмотра Foxit Reader

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .