Там нет «стандарт кодирования», то есть многие из них.
UTF-8, кодировка Unicode, наиболее часто используется в наши дни. Это значение по умолчанию в большинстве дистрибутивов Linux, а также во многих почтовых клиентах на других платформах. В Windows "Unicode" обычно относится к UTF-16, который является просто еще одним представлением того же Unicode.
Другие кодировки постепенно перестали использоваться из-за их ограничений и невозможности использовать несколько языков в одном файле.
Наиболее "стандартными" из них будут кодировки ISO 8859 , в основном ISO 8859-1 для "Западной Европы".
Их аналоги Windows очень похожи; наиболее распространенным является Windows-1252 aka cp1252 , расширенный набор ISO 8859-1. (Ваш cp1251 для кириллицы.)
- Другие кодировки, такие как KOI8-R и Shift-JIS также используются.
Смотрите также список кодировок символов.
Скрипт Python с именем chardet способен точно угадать кодировку, используемую в данных файлах.