Я использую Tesseract как средство для преобразования печатных текстовых документов, снятых моей камерой мобильного телефона, в текст. Результаты не велики. Качество изображения очень хорошее, намного более четкое, чем у факса, но, похоже, очень сложно идентифицировать символы.

Я также попытался имитировать один из этих документов в текстовом редакторе, сделать снимок экрана с окном и запустить его через Tesseract, и результаты были лишь незначительно лучше.

Это наводит меня на мысль, что, вероятно, есть оптимальный шрифт для Tesseract. Я немного погуглил и наткнулся на OCR-A, но для него, видимо, нужна лицензия. Затем я наткнулся на бесплатную альтернативу OCR-A на SourceFourge, но, похоже, он не намного лучше, чем Arial или Courier New.

Есть ли шрифт, который лучше всего работает с Tesseract, или мне нужно сделать что-то еще, чтобы повысить точность распознавания символов?

1 ответ1

0

Ваш лучший выбор - обучить его тому шрифту, который вы используете.

Я не хочу притворяться, что это легкий процесс, это не так, но он должен работать лучше. Кроме того, большинство программ распознавания текста предпочитают 300 dpi или 600 dpi, поэтому может потребоваться масштабирование.

Tesseract Github Wiki имеет несколько хороших ресурсов по обучению Tesseract.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .