У меня есть пакет текстовых файлов неопределенной кодировки, которые мне нужно очистить от необычных символов. Я использовал библиотеку chadet python, чтобы установить, что они на 87% соответствуют ISO-8859-2, но они все еще содержат несоответствующие символы, которые мешают им читать в R - описанный в этом посте SO. Интересно, есть ли способ - предпочтительно метод командной строки - выполнить пакетную очистку этих файлов и преобразовать их в UTF-8, причем любые неподтверждающие символы заменяются на что-то вроде '~'. Очень благодарен за помощь.
1
1 ответ
2
Вы пробовали с iconv
? Я не знаю, содержит ли OSX эту команду, но вот пример:
iconv -t UTF-8 myfile.txt
Если это не помогло, попробуйте транслитерировать это:
iconv -t UTF-8//TRANSLIT myfile.txt
Обновление (из комментариев):
После небольшого эксперимента выполнил работу
iconv -t UTF-8//TRANSLIT -c infile > outfile.txt
. Спасибо, парни.