У меня есть несколько документов PDF (например, этот), которые, кажется, написаны с использованием стандартных китайских иероглифов, но когда я извлекаю текст, оказывается, что он закодирован с использованием символов из дополнительных областей частного использования Unicode.
Есть ли надежный способ сопоставления символов частного использования с соответствующими символами CJK?