Когда я сохраняю источник этой страницы русского сайта:

http://www.mail.ru/

в виде файла .txt все русские буквы превращаются в китайские символы (сейчас я работаю на китайском компьютере), но когда я сохраняю другую страницу другого русского сайта:

http://starling.rinet.ru/cgi-bin/response.cgi?root=/usr/local/share/starling/morpho&morpho=0&basename=\usr\local\share\starling\morpho\ozhegov\ozhegov&first=4001

также в виде файла .txt все русские буквы сохраняются правильно.

Есть идеи, почему это может происходить?

2 ответа2

2

Упоминаемые вами веб-страницы используют разные кодировки. Страница mail.ru использует кириллицу Windows-1251, страница rinet.ru использует Unicode UTF-8.

Возможно, источник mail.ru был сохранен в точности так, как его отправил сервер, но ваш текстовый редактор не обнаружил кодировку или не поддерживает ее вообще. Посмотрите, есть ли в вашем текстовом редакторе опция Кодировка или меню, и попробуйте разные кодировки.

В качестве теста вы можете перетащить текстовый файл в веб-браузер. Если русский текст не отображается правильно, вы можете попробовать разные кодировки. В зависимости от вашего веб-браузера вы можете использовать что-то вроде щелчка правой кнопкой мыши → Кодировка или меню страницы → Кодировка или Вид → Кодировка.

Этот тест может помочь подтвердить, если текстовый редактор не обнаруживает кодировку или кодировка текстового файла была неправильно преобразована при сохранении.

1

Как видно из исходного кода html, эти две страницы имеют различное содержание: mail.ru находится в windows-1251, а вторая ссылка - в utf-8.

UTF-8 используется во всем мире и может использоваться для кодирования всех возможных символов Юникода, поэтому текст в utf-8 должен быть виден на каждом компьютере (если на нем установлены правильные шрифты).

Windows-1251 является однобайтовой кодировкой, что означает, что она может использоваться для кодирования только 256 символов (включая специальные символы, цифры и английский алфавит как строчными, так и прописными буквами) и используется только в пост-СССР. В мире используется много однобайтовых кодировок, и ваш текстовый редактор, вероятно, использует некоторую китайскую кодировку по умолчанию (или просто неправильно идентифицировала кодировку). Возможно, его можно изменить в настройках или вы можете конвертировать текст из одной кодировки в другую.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .