Это потому, что кодировка, используемая в PDF, является произвольной.
Из какого-то PDF на вьетнамском я нашел в интертубах
« Кодировка: Пользовательская », вероятно, означает (случайное) кодирование, составленное для собственного удобства программой, которая создала этот PDF.
« Встроенное подмножество » означает, что программе не требовалось огромное количество символов из этого шрифта, поэтому она просто выбрала несколько необходимых символов и расположила их в, казалось бы, случайном порядке (возможно, в той последовательности, в которой программа встретила их в тексте) и заново изобрела Кодировка основана на этом порядке.
Это не совсем "персонажи".
По сути, PDF больше не содержит универсально значимой информации о том, "какой символ" он имеет. Он просто имеет индексированный набор фигур и список позиций и размеров, в которых он отображает эти индексированные формы.
Википедия говорит
Шрифты с ключом CID могут быть созданы без ссылки на коллекцию символов с использованием кодировки "identity", такой как Identity-H (для горизонтальной записи) или Identity-V (для вертикальной). Каждый из таких шрифтов может иметь уникальный набор символов, и в таких случаях номер CID глифа не является информативным; как правило, вместо этого используется кодировка Unicode, возможно, с дополнительной информацией.
Поэтому вы можете попытаться понять, имеет ли это смысл, скажем, в кодировке UTF-16 BE.