Я пытаюсь выяснить, какая кодировка использует какой-то текстовый файл, который я получил. Я знаю, что эта кодировка кодирует é в 0x8E.
Конкретный вопрос: какие кодировки возможно соответствуют?
Общий вопрос: как я могу узнать, в общем, какие кодировки соответствуют некоторым ограничениям, выраженным в парах (символ Юникода, последовательность байтов)?
Учарде не помогает: он обнаруживает Windows-1252, но это, очевидно, неправильно в моем случае. Вообще говоря, такой инструмент будет хуже выполнять работу по обнаружению кодировок по сравнению с использованием ограничений в качестве внешних знаний.
Я понимаю, что концептуально может быть задумано любое кодирование, которое кодирует é в 0x8E и что-либо еще во что-либо еще, но я хочу искать только среди кодировок, обычно используемых человеком. (В частности, в этом случае, вероятно, некоторая кодировка обычно используется в западноевропейском мире.)
Я подозреваю, что это можно сделать, используя, например, файлы данных из uchardet, с умным использованием grep или аналогичных инструментов. Предпочтительно задействованные инструменты должны быть бесплатными, как в свободе слова, и доступны в стандартных дистрибутивах GNU-Linux.