3

У меня есть около 3000 небольших изображений отдельных слов, которые я пытаюсь преобразовать в текст. Я установил tesseract на свой компьютер под управлением Windows 7 с помощью установщика и успешно сумел распознать образы через cmd и powershell.

 tesseract.exe imagename.png imagename 

создает текстовый файл с преобразованным текстом.

Результаты, которые я получил, были ужасны, только около 40% персонажей были успешно преобразованы. Я хотел бы улучшить результаты.

Кто-нибудь знает, какие дополнительные конфигурации могут быть приведены в этой команде? Обязательные аргументы:

tesseract imagename outputbase [- lang] [configfile [+|-]varfile]...]

Также может кто-то описать процедуру обучения, мне трудно понять документацию. Я знаю, что мой текст во времена новый римский. Нужно ли обучать его для TNR или он уже встроен и / или можно ли загружать файлы, которые позволяют tesseract его распознавать?

1 ответ1

0

Один из способов удалить результаты - это предварительно обработать их, например удалить любые перекосы и пороговые значения. Вы можете использовать открытое резюме. Позже вы можете обучить текст

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .