Есть ли инструмент, который может определить язык текста из нескольких абзацев?
2 ответа
1
У file
инструмента есть куча эвристик для угадывания типов файлов, в том числе тот, который сообщает "английский текст". Я не знаю, знает ли он о других человеческих языках, но он определенно может быть улучшен, чтобы догадываться между ними.
1
Есть много инструментов, чтобы сделать это, первый из которых я думаю, это собственные Google:http://code.google.com/apis/ajax/playground/#language_detect
- В Java есть http://textcat.sourceforge.net/
- В Ruby https://github.com/peterc/whatlanguage
- В Perl http://search.cpan.org/~ambs/Lingua-Identify-0.29/lib/Lingua/Identify.pm и т.д.
Надеюсь, поможет