2

Я пытаюсь скопировать / вставить кучу вьетнамского текста из документа PDF в Notepad++ (или что-нибудь, ничего не работает). Вставленный текст отличается от исходного текста. Что было бы лучшим способом исправить это?

Например:

Исходный текст: (см. Скриншот для исходного текста)

Вставленный текст: салат из папайи ~ GÕi ñu ñû Tom

Спасибо.

Изменить. Похоже, что если источником является документ Word, он копируется и вставляется, как и ожидалось. PDF это проблема здесь.

2 ответа2

6

Это потому, что кодировка, используемая в PDF, является произвольной.

Свойства файла Acrobat

Из какого-то PDF на вьетнамском я нашел в интертубах

« Кодировка: Пользовательская », вероятно, означает (случайное) кодирование, составленное для собственного удобства программой, которая создала этот PDF.

« Встроенное подмножество » означает, что программе не требовалось огромное количество символов из этого шрифта, поэтому она просто выбрала несколько необходимых символов и расположила их в, казалось бы, случайном порядке (возможно, в той последовательности, в которой программа встретила их в тексте) и заново изобрела Кодировка основана на этом порядке.

Это не совсем "персонажи". По сути, PDF больше не содержит универсально значимой информации о том, "какой символ" он имеет. Он просто имеет индексированный набор фигур и список позиций и размеров, в которых он отображает эти индексированные формы.


Википедия говорит

Шрифты с ключом CID могут быть созданы без ссылки на коллекцию символов с использованием кодировки "identity", такой как Identity-H (для горизонтальной записи) или Identity-V (для вертикальной). Каждый из таких шрифтов может иметь уникальный набор символов, и в таких случаях номер CID глифа не является информативным; как правило, вместо этого используется кодировка Unicode, возможно, с дополнительной информацией.

Поэтому вы можете попытаться понять, имеет ли это смысл, скажем, в кодировке UTF-16 BE.

-1

Я нашел решение, которое сработало для меня - хотя не могу объяснить, почему. Когда я открыл PDF в Acrobat, я не смог скопировать и вставить вьетнамские символы. Однако, если я открою PDF в Preview App Version (у меня версия 5.5.3 (719.31)) на моем Mac, я смог бы без проблем скопировать и вставить.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .