У меня есть текст на упрощенном китайском, который при чтении как UTF-8 начинается с ´ÓºÜ¾ÃÒÔÇ°¿ªÊ¼
, который онлайн-инструмент от MandarinTools (первый результат поиска для Repair Corrupted Chinese Email) исправляет правильный 从很久以前开始
, но Непонятно, как это исправить. Из использования онлайн-инструмента и шестнадцатеричного редактора я знаю, что каждый символ кодируется как 32-битная фиксированная длина:
c2b4 c393 从
c2ba c39c 很
c2be c383 久
c392 c394 以
c387 c2b0 前
c2bf c2aa 开
c38a c2bc 始
Это также показывает, что символ кодируется как два 16-битных слова в диапазоне c2 ** - c3 **. В UTF-16 первое 16-битное слово всегда равно 0 для этих символов. UTF-8 использует только 24 бита для каждого символа, а кодовая страница 936 использует только 16 бит для каждого символа. Какой метод я могу использовать для определения правильного преобразования кодировки?
представление utf-8:
e4bb 8e 从
e5be 88 很
e4b9 85 久
e4bb a5 以
e589 8d 前
e5bc 80 开
e5a7 8b 始
cp936 представление:
b4d3 从
badc 很
bec3 久
d2d4 以
c7b0 前
bfaa 开
cabc 始