Я использую Tesseract как средство для преобразования печатных текстовых документов, снятых моей камерой мобильного телефона, в текст. Результаты не велики. Качество изображения очень хорошее, намного более четкое, чем у факса, но, похоже, очень сложно идентифицировать символы.
Я также попытался имитировать один из этих документов в текстовом редакторе, сделать снимок экрана с окном и запустить его через Tesseract, и результаты были лишь незначительно лучше.
Это наводит меня на мысль, что, вероятно, есть оптимальный шрифт для Tesseract. Я немного погуглил и наткнулся на OCR-A, но для него, видимо, нужна лицензия. Затем я наткнулся на бесплатную альтернативу OCR-A на SourceFourge, но, похоже, он не намного лучше, чем Arial или Courier New.
Есть ли шрифт, который лучше всего работает с Tesseract, или мне нужно сделать что-то еще, чтобы повысить точность распознавания символов?