1

У меня есть текстовый файл в UTF-8, содержащий где-то символ Unicode, которого нет в CP1250 *. Я хочу сохранить файл как CP1250, но Gedit и Leafpad не могут этого сделать. Я не знаю, какой символ на самом деле вызывает проблему: невозможно использовать Ctrl+F, чтобы найти «символы, присутствующие в этом файле, которых нет в cp1250». Документ длинный. Как я могу найти оскорбительного персонажа? Я знаю, что всегда могу удалить половину текста и продолжить с той половиной, которую все еще нельзя сохранить, но это кажется немного громоздким. Есть ли способ лучше?


* Возможно, например, файл содержит ɸ (U+0278), символ, которого нет в CP1250.

1 ответ1

1

Вырежьте и вставьте символ «ɸ», например, отсюда в поле поиска вашего редактора и найдите его. Затем вы можете удалить его из документа.

Однако простое удаление символа обычно не рекомендуется. Часто лучше заменить его на U+001A SUBSTITUTE, обозначая ошибку данных на уровне символов, или (в зависимости от контекста и приложения) знаком вопроса «?» или некоторые экранирующие обозначения (например, «U+0278» для «ɸ»), чтобы сообщить о проблеме программному обеспечению или людям, которые читают файл. Если «ɸ» правильно используется в исходном тексте, это фонетический (IPA) символ, используемый в описании произношения слова. Следовательно, просто опуская это будет искажать информацию.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .