1

У меня есть пакет текстовых файлов неопределенной кодировки, которые мне нужно очистить от необычных символов. Я использовал библиотеку chadet python, чтобы установить, что они на 87% соответствуют ISO-8859-2, но они все еще содержат несоответствующие символы, которые мешают им читать в R - описанный в этом посте SO. Интересно, есть ли способ - предпочтительно метод командной строки - выполнить пакетную очистку этих файлов и преобразовать их в UTF-8, причем любые неподтверждающие символы заменяются на что-то вроде '~'. Очень благодарен за помощь.

1 ответ1

2

Вы пробовали с iconv? Я не знаю, содержит ли OSX эту команду, но вот пример:

iconv -t UTF-8 myfile.txt

Если это не помогло, попробуйте транслитерировать это:

iconv -t UTF-8//TRANSLIT myfile.txt

Обновление (из комментариев):

После небольшого эксперимента выполнил работу iconv -t UTF-8//TRANSLIT -c infile > outfile.txt . Спасибо, парни.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .