1

Кто-то прислал мне текстовый файл. Хотя я могу прочитать большую часть документа, иногда встречаются необычные символы. Когда я открываю его в VIM, я вижу <92> на его месте. Когда я использую gedit, я вижу персонажа, который выглядит как квадрат с двумя нулями и 9 и 4 в квадрате.

Есть ли способ декодировать этих забавных персонажей обратно в их читабельный человеческий эквивалент?

Я также запустил в оболочке следующее:

johncomputer> file --mime-encoding file.txt
johncomputer> file.txt: : utf-8

Так что я думаю, что это кодируется utf8.

Кроме того, это текстовый документ, в котором большинство символов доступно для чтения. Только некоторые (не все) персонажи с акцентом появляются странно.

2 ответа2

5

Скорее всего, то, что вы видите как <92> и <94>, это «умный» (вьющийся) апостроф и «умная» правая двойная кавычка в кодировке Windows-1252 . Конечно, они могут быть чем угодно, но в UTF-8 такие байты не могут отображаться как «автономные», только как 2-й или более поздний байт многобайтового представления символа,

1

Знаете ли вы кодовую страницу, использованную человеком, который отправил вам файл? Каков их основной язык?

В Vim вы можете перезагрузить файл, используя другую кодировку с командой

:e ++enc=cpXXX

Ссылка на соответствующий совет vim

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .