Мне интересно использовать OCR для распознавания текста из документа, который не содержит слов. Скорее, это документ с длинной строкой "случайных" печатных символов. Я пытался использовать tesseract для сканирования текста, но, похоже, он ищет слова. Есть ли способ заставить tesseract просто распознавать символы?
1 ответ
2
Да, вы можете отключить словари , определив файл конфигурации, содержащий:
load_system_dawg F
load_freq_dawg F
и укажите это с помощью команды.