У меня есть около 3000 небольших изображений отдельных слов, которые я пытаюсь преобразовать в текст. Я установил tesseract на свой компьютер под управлением Windows 7 с помощью установщика и успешно сумел распознать образы через cmd и powershell.
tesseract.exe imagename.png imagename
создает текстовый файл с преобразованным текстом.
Результаты, которые я получил, были ужасны, только около 40% персонажей были успешно преобразованы. Я хотел бы улучшить результаты.
Кто-нибудь знает, какие дополнительные конфигурации могут быть приведены в этой команде? Обязательные аргументы:
tesseract imagename outputbase [- lang] [configfile [+|-]varfile]...]
Также может кто-то описать процедуру обучения, мне трудно понять документацию. Я знаю, что мой текст во времена новый римский. Нужно ли обучать его для TNR или он уже встроен и / или можно ли загружать файлы, которые позволяют tesseract его распознавать?