По сути, я ищу инструмент (Windows/Mac), который позволит мне следующий рабочий процесс:
- Сканирование ВСЕХ моих документов в папку (200-300 отсканированных изображений)
- запустить инструмент, который будет просматривать все файлы и запускать на них OCR
- на основе OCR метаданные применяются к каждому файлу.
- Затем я читаю метаданные и, соответственно, классифицирую файлы через пакетный процесс.
Несмотря на то, что в SU & SE есть довольно много предложений по выполнению простого распознавания текста, я не смог найти решение, которое, по сути, позволяло бы мне выполнять программные функции, основанные на данных из документов, полученных с помощью распознавания текста.
Шаблон документа является стандартным, поэтому мы знаем, какой файл ожидать. Мы просто хотим просканировать всю связку, а затем запустить бэкэнд-процесс, который аккуратно классифицирует / загружает в соответствующие папки. Наличие OCR дает мне возможность искать в файле, в то время как я открываю его в такой программе, как Acrobat Reader / Preview. Но я хочу запустить эту логику категоризации из скрипта batch / shell / apple. Такие вещи, как префикс номера документа к имени файла и т.д.