ANSI в UTF-8 в Notepad++

Question

У меня есть текст, закодированный в ANSI:

ANSI текстовый файл

Когда я попытался преобразовать его в UTF-8 (используя меню Кодировка> UTF-8 в Блокноте ++), я получил несколько странных символов:

UTF-8 текстовый файл

Я думал, что UTF-8 - это расширенный набор ANSI, и что впоследствии у меня не будет таких проблем. Могу ли я в любом случае избежать появления этих странных персонажей?

score 37 · Accepted Answer · 2011-03-09T19:38:42

UTF-8 - это не кодировка, а кодировка Unicode. Первые 128 символов совпадают с ASCII, но отличаются старшими 128 байтами. Байт с установленным старшим битом (или> = 0x80) является расширенным символом в ASCII, тогда как в UTF-8 он указывает начальный байт многобайтовой последовательности. Это случай 0x93 или 0x94 выше. Тем не менее, я не вижу ничего странного в этом файле. Это умные цитаты или цитаты с различными формами для открытия и закрытия цитат, которые вы часто видите при использовании текстового редактора, такого как MS Word

редактировать

Вопрос отредактировал. Я думаю, это потому, что вы выбрали не тот инструмент. Пункты меню encode предназначены для изменения кодировки, если отображаются неправильные символы. Он просто обрабатывает ту же последовательность байтов, считанную с диска, что и другая кодировка. Поскольку ASCII и UTF-8 отличаются, у вас будет некорректная последовательность байтов UTF-8, и вы увидите результат выше. Вам нужно выбрать convert to UTF-8 чтобы изменить все входные байты

кодировка блокнота

Вы также перепутали ANSI и ASCII. ANSI часто ссылается на Windows-1252, который является набором символов, используемым в английской Windows и некоторых языках Западной Европы. Это расширенная версия ISO 8859-1, хотя ISO 8859-1 также можно назвать ANSI. ISO 8859-1 - это также первые 256 кодовых точек Unicode, так что это подмножество Unicode, но оно не совместимо с кодировкой UTF-8. ASCII представляет собой 7-битный набор символов и является подмножеством ANSI, которое кодируется 8 битами, но иногда его также называют ANSI, хотя и не очень правильно

https://en.wikipedia.org/wiki/ANSI_character_set

В общем, отношения между наборами символов следующие

ASCII < ISO 8859-1 < Windows-1252
        ^
        Unicode

Сейчас выбран русский

ANSI в UTF-8 в Notepad++

1 ответ1

редактировать

Всё ещё ищете ответ? Посмотрите другие вопросы с метками notepad++ character-encoding utf-8 ansi.

Связанные

ANSI в UTF-8 в Notepad++

1 ответ1

редактировать

Всё ещё ищете ответ? Посмотрите другие вопросы с метками notepad++ character-encoding utf-8 ansi.

Связанные

Похожие