5

Я собрал его из источников с leptonica . Это изображение в формате png с прозрачным фоном, которое я отредактировал, добавив синий цвет, и все еще эта ошибка:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica
Empty page!!
Empty page!!

Вот входное изображение:

введите описание ссылки здесь

3 ответа3

5

попробуйте вариант psm.

-psm N
    Set Tesseract to only run a subset of layout analysis and assume a certain form of image. The options for N are:

    0 = Orientation and script detection (OSD) only.
    1 = Automatic page segmentation with OSD.
    2 = Automatic page segmentation, but no OSD, or OCR.
    3 = Fully automatic page segmentation, but no OSD. (Default)
    4 = Assume a single column of text of variable sizes.
    5 = Assume a single uniform block of vertically aligned text.
    6 = Assume a single uniform block of text.
    7 = Treat the image as a single text line.
    8 = Treat the image as a single word.
    9 = Treat the image as a single word in a circle.
    10 = Treat the image as a single character.

Ссылка:http://hilojack.sinaapp.com/?p=866

3

Обработайте ваше изображение до порогового цвета фона. Переключите цвет текста на черный (для лучшего распознавания. После того, как вы установили пороговое значение фона, изменение значений цвета должно быть довольно простым). Превратите ваше изображение в оттенки серого. Затем конвертируйте в формат .tif .

Теперь у вас есть шанс обработать это изображение (супер-пользователь не позволяет мне публиковать изображения, поэтому я связываю их):

Обработанное изображение

Теперь запустите следующую команду:

tesseract test.tif test_output -psm 7

и результат был:

Tist

Что очень хорошо, учитывая, что я не использовал никаких дополнительных данных о тренировках, кроме стандартного англ.

Скриншот результата

2

Тессеракт не обучен распознавать почерк. Не знаю, что он делает с этими цветами.

Вы можете попробовать обучить тессеракту этим почерком ...

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .