4

У меня есть PDF-файл, который содержит некоторые латинские европейские символы. Если я скопирую некоторый текст с помощью инструмента выделения, и вставлю его в другую программу (слово, блокнот) - «специальные» символы не будут передаваться правильно (вместо них появляются другие нечетные символы).

Я попытался скопировать текст из Acrobat Reader и Foxit.

Есть ли что-нибудь, что я могу сделать здесь, чтобы скопировать это?

Спасибо

6 ответов6

3

Обычные документы PDF, содержащие текст Unicode, хранят текст не в виде символов, а в виде ссылок на глифы (формы букв) в используемых шрифтах. При встраивании шрифтов в документ PDF шрифты Unicode также часто преобразуются Acrobat в несколько шрифтов меньшего размера - поэтому, даже если вы используете только один шрифт, эти ссылки могут относиться к глифам в нескольких меньших шрифтах, а не к глифам исходного шрифта.

При вырезании и вставке текста Unicode из Acrobat в другое приложение Acrobat требуется достаточно информации для восстановления символов Unicode из буквенных форм. Если используемый шрифт имеет глифы, названные в соответствии с Соглашением об именах Adobe Glyph, Acrobat может проанализировать эти имена (которые также хранятся в документе PDF) и восстановить текст Unicode. К сожалению, существует много шрифтов Unicode, включая стандартные шрифты Windows, которые не соответствуют этому соглашению - поэтому это может быть невозможно.

Файлы PDF с тегами также гарантируют надежный перевод текста в Unicode, так что вы должны иметь возможность вырезать и вставлять текст Unicode из файла PDF с тегами .

Таким образом, если вы хотите предотвратить эту проблему в будущем, при создании PDF-документа из документа, содержащего текст, отличающийся от латинского Unicode, всегда генерируйте PDF-файл как PDF с тегами и старайтесь использовать только те шрифты, которые были созданы с глифами, названными в соответствии с Соглашение об именовании Adobe Glyph. Это гарантирует, что ваши документы Unicode PDF будут доступны для поиска и что текст будет надежно вырезан и вставит из них текст.

1

Возможно, в последней версии Pdf Writer текст Unicode не может быть встроен в виде кодовых точек, в PDF-документ встраиваются только глифы шрифтов открытого типа.

0

Наиболее вероятный ответ заключается в том, что текст в документе PDF не содержит правильных символов. То, что вы видите, не обязательно то, что вы получаете с PDF, текст, с которого вы копируете, и изображение, которое вы видите, это две разные вещи, и во многих случаях этот текст - просто чтение изображения с помощью оптического распознавания символов, что, вероятно, не распознавать нелатинские символы.

0

У меня был китайский PDF-файл, из которого я не мог копировать и вставлять символы с помощью Adobe Reader. Однако я добился успеха, открыв PDF в Adobe Acrobat Professional, а не в Reader.

0

В моем случае польские символы, такие как ś, ć, ł, ę, были скопированы при копировании из pdf.

Опробовано много вариантов. Единственный, который работал очень хорошо, был https://online2pdf.com/convert-pdf-to-rtf# .

Поэтому рекомендуем использовать его, если вы не хотите тратить время на попытки преобразовать вещи с помощью других решений.

0

Похоже, это может быть проблема кодирования. Убедитесь, что для обоих файлов задана кодировка Unicode (возможно, UTF-8). Я не совсем уверен, как это сделать в Acrobat Reader, но Notepad и Word позволяют вам установить это.

Смотрите http://www.text-editor.org/encoding.htm для получения дополнительной информации о кодировании.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .