Перекодировать и очистить текстовые файлы в Терминале

Question

У меня есть пакет текстовых файлов неопределенной кодировки, которые мне нужно очистить от необычных символов. Я использовал библиотеку chadet python, чтобы установить, что они на 87% соответствуют ISO-8859-2, но они все еще содержат несоответствующие символы, которые мешают им читать в R - описанный в этом посте SO. Интересно, есть ли способ - предпочтительно метод командной строки - выполнить пакетную очистку этих файлов и преобразовать их в UTF-8, причем любые неподтверждающие символы заменяются на что-то вроде '~'. Очень благодарен за помощь.

score 2 · Accepted Answer · 2011-03-09T19:38:42

Вы пробовали с iconv? Я не знаю, содержит ли OSX эту команду, но вот пример:

iconv -t UTF-8 myfile.txt

Если это не помогло, попробуйте транслитерировать это:

iconv -t UTF-8//TRANSLIT myfile.txt

Обновление (из комментариев):

После небольшого эксперимента выполнил работу iconv -t UTF-8//TRANSLIT -c infile > outfile.txt . Спасибо, парни.

Сейчас выбран русский

Перекодировать и очистить текстовые файлы в Терминале

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками macos.

Перекодировать и очистить текстовые файлы в Терминале

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками macos.

Похожие