Обычные документы PDF, содержащие текст Unicode, хранят текст не в виде символов, а в виде ссылок на глифы (формы букв) в используемых шрифтах. При встраивании шрифтов в документ PDF шрифты Unicode также часто преобразуются Acrobat в несколько шрифтов меньшего размера - поэтому, даже если вы используете только один шрифт, эти ссылки могут относиться к глифам в нескольких меньших шрифтах, а не к глифам исходного шрифта.
При вырезании и вставке текста Unicode из Acrobat в другое приложение Acrobat требуется достаточно информации для восстановления символов Unicode из буквенных форм. Если используемый шрифт имеет глифы, названные в соответствии с Соглашением об именах Adobe Glyph, Acrobat может проанализировать эти имена (которые также хранятся в документе PDF) и восстановить текст Unicode. К сожалению, существует много шрифтов Unicode, включая стандартные шрифты Windows, которые не соответствуют этому соглашению - поэтому это может быть невозможно.
Файлы PDF с тегами также гарантируют надежный перевод текста в Unicode, так что вы должны иметь возможность вырезать и вставлять текст Unicode из файла PDF с тегами .
Таким образом, если вы хотите предотвратить эту проблему в будущем, при создании PDF-документа из документа, содержащего текст, отличающийся от латинского Unicode, всегда генерируйте PDF-файл как PDF с тегами и старайтесь использовать только те шрифты, которые были созданы с глифами, названными в соответствии с Соглашение об именовании Adobe Glyph. Это гарантирует, что ваши документы Unicode PDF будут доступны для поиска и что текст будет надежно вырезан и вставит из них текст.