1

Каковы стандартные кодировки в Mac, Unix и других?

Я знаю, что если мой друг, использующий Windows, отправит мне файл, он, скорее всего, будет закодирован в cp1251 . Поэтому в emacs я могу сделать: revert-buffer-coding-system и выбрать cp1251 .

1 ответ1

7

Там нет «стандарт кодирования», то есть многие из них.

UTF-8, кодировка Unicode, наиболее часто используется в наши дни. Это значение по умолчанию в большинстве дистрибутивов Linux, а также во многих почтовых клиентах на других платформах. В Windows "Unicode" обычно относится к UTF-16, который является просто еще одним представлением того же Unicode.

Другие кодировки постепенно перестали использоваться из-за их ограничений и невозможности использовать несколько языков в одном файле.

  • Наиболее "стандартными" из них будут кодировки ISO 8859 , в основном ISO 8859-1 для "Западной Европы".

  • Их аналоги Windows очень похожи; наиболее распространенным является Windows-1252 aka cp1252 , расширенный набор ISO 8859-1. (Ваш cp1251 для кириллицы.)

  • Другие кодировки, такие как KOI8-R и Shift-JIS также используются.

Смотрите также список кодировок символов.

Скрипт Python с именем chardet способен точно угадать кодировку, используемую в данных файлах.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .