Итак, у меня на флешке есть текстовый файл, сгенерированный кириллицей (моя собственная работа, собственный перьевой накопитель), несколько лет. Теперь мне нужно было его открыть, только чтобы увидеть этот беспорядок.

Интересно, почему это происходит и как я могу восстановить его до нормального состояния .. Я попытался сохранить его в кодировке Unicode и UTF-8, даже в каком-то формате MS-DOS (опция из Wordpad), но это не имеет никакого значения.

2 ответа2

1

То, что вы видите, называется моджибаке. Короче говоря, приложение, с которым вы открываете файл, использует неправильную кодировку, чтобы попытаться прочитать файл. Стандартным решением является использование инструмента транскодирования, как онлайн, так и в автономном режиме (хотя я не знаю ни одного бесплатного для Windows, который работает в автономном режиме), или откройте документ в приложении, которое позволяет вам установить кодировку и сохранить его через него по желанию. кодирование.

В качестве несколько хакерской альтернативы: если вы можете сохранить файл без изменения кодировки, вы можете изменить расширение на .eml , отформатировать его как сообщение электронной почты , убедиться, что заголовок Content-Type указывает правильную кодировку, а затем открыть полученный результат. файл в хорошем почтовом клиенте (почти все, кроме Outlook или Windows Mail), скопируйте текст в текстовый редактор и сохраните его.

Для дальнейшего использования общепринятым способом избежать этого является сохранение файлов в формате UTF-8 или UTF-16 (обычно предпочтительнее UTF-8, так как он лучше поддерживается большинством платформ, отличных от Windows, чем UTF-16).

В частности, ваш файл действительно выглядит закодированным с использованием KOI-8 (определяется на основе утверждения, что текст является кириллицей, и видимое распределение фактических символов), при этом приложение явно интерпретирует его как ISO-8859-1 или кодовую страницу Windows. 1252 (определяется просто на основе того, что отображается, плюс тот факт, что это стандартные резервные кодировки для многих устройств).

0

Вы можете попробовать редактор CudaText (или SynWrite), бесплатно.

  • открыть этот текстовый файл
  • щелкните поле строки состояния с именем кодировки (например, ANSI), "Обновить как"
  • найти кодировку, которая делает текст ОК
  • когда найдена кодировка, щелкните поле строки состояния с именем кодировки "Преобразовать в"
  • использовать UTF8
  • сохранить файл с UTF8

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .