1

У меня есть несколько документов PDF (например, этот), которые, кажется, написаны с использованием стандартных китайских иероглифов, но когда я извлекаю текст, оказывается, что он закодирован с использованием символов из дополнительных областей частного использования Unicode.

Есть ли надежный способ сопоставления символов частного использования с соответствующими символами CJK?

1 ответ1

0

Общий поток, вероятно,

  • Извлечь шрифт из PDF
  • Попробуйте сравнить шрифт с различными известными кодировками и посмотреть, является ли он одним из этих
  • Или же это может быть что-то, что на самом деле используется в частном порядке
  • Разработайте обратную связь, проверив таблицу преобразования, если известно, в какой она кодировке, в противном случае работайте из извлеченного шрифта из pdf.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .