Как получить символы CJK Unicode из PDF, который использует дополнительные символы частного использования?

Question

У меня есть несколько документов PDF (например, этот), которые, кажется, написаны с использованием стандартных китайских иероглифов, но когда я извлекаю текст, оказывается, что он закодирован с использованием символов из дополнительных областей частного использования Unicode.

Есть ли надежный способ сопоставления символов частного использования с соответствующими символами CJK?

score 0 · Answer 1 · 2011-03-09T19:38:42

Общий поток, вероятно,

Извлечь шрифт из PDF
Попробуйте сравнить шрифт с различными известными кодировками и посмотреть, является ли он одним из этих
Или же это может быть что-то, что на самом деле используется в частном порядке
Разработайте обратную связь, проверив таблицу преобразования, если известно, в какой она кодировке, в противном случае работайте из извлеченного шрифта из pdf.

Сейчас выбран русский

Как получить символы CJK Unicode из PDF, который использует дополнительные символы частного использования?

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf unicode chinese.

Как получить символы CJK Unicode из PDF, который использует дополнительные символы частного использования?

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf unicode chinese.

Похожие