Сначала вы должны настроить эти изображения. Я рекомендую пакетный инструмент, такой как XnViewMP, который является бесплатным и мультиплатформенным.
У него есть файловый менеджер. Выберите все ваши изображения, затем перейдите в Инструменты - Пакетное преобразование. Добавьте действия, как я сделал:
Вот мои действия:
- HLS - сделать его в оттенках серого:
- Оттенок: 0
- Легкость: 0
- Насыщенность: -127
- Уровни - немного понизить уровень черного, чтобы серый шум исчез
- Черная точка: 0
- Белая точка: 212 - может варьироваться в зависимости от изображения
- Уменьшить шумовой фильтр
- Отрегулируйте для увеличения контрастности
- Яркость: 0
- Контраст: 127 - это важно
- Гамма: 1,06
- Минимум для того, чтобы сделать черный толще
- Размер фильтра: 5х5 - может варьироваться в зависимости от изображения
Не забудьте сохранить как tiff
(см. Вкладку «Вывод »). После этого я запускаю tesseract
:
tesseract test.tif text -psm 7
Примечание. Я выбрал режим PSM 7: обрабатывать изображение как одну текстовую строку. Если у вас несколько строк, вам, вероятно, потребуется использовать режим 6 или 3.
А вот содержимое выходного файла text.txt
:
570 394 666 638 043