Есть ли OCR-библиотека /cliapp, которая позволяет мне делать что-то вроде этого:

# ./ocrapp -input file.pdf -posx 3.6cm -posy 7.8cm -width 10cm -height 1.5cm -output rawdata.txt

Я пытаюсь автоматизировать считывание идентификационных номеров клиентов, сумм и т.д. Из отсканированных счетов и счетов. Я ищу библиотеку или cli-приложение, потому что хочу создать из него свою собственную систему управления документами;) (платформа не важна, только не только для osx).

Типичный норвежский счет выглядит следующим образом: http://www.fakturo.no/img/uploads/WindowsLiveWriterHvordansenderderefakturaenppapir_1001Bfakturaeksempel_uten_logo_thumb_1.gif

Информация, которую мне нужно извлечь, находится внизу. (KID, Beløp и Kontonummer)

Какие-нибудь советы?

2 ответа2

0

Я бы посоветовал вам найти инструмент обрезки командной строки, например, https://askubuntu.com/questions/124692/command-line-tool-to-crop-pdf-files в Ubuntu.

Затем вы можете написать короткий сценарий, чтобы обрезать каждый счет-фактуру в небольшие разделы, содержащие нужный текст, и запускать их через любую программу OCR.

Конечно, если вы пишете систему управления документами, все это может быть сделано с использованием общих библиотек для выбранного вами языка программирования (и этот вопрос, вероятно, должен касаться stackoverflow)

0

Попробуйте использовать ABBYY Cloud OCR SDK. Это ссылка на подробное руководство по распознаванию текстовых полей: http://ocrsdk.com/documentation/quick-start/text-fields Я работаю в ABBYY, и если вам нужна дополнительная информация, я готов вам помочь.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .