Вы смотрели на такие вещи, как Readiris, SimpleOCR или другие альтернативы OCR, чтобы увидеть, есть ли у какой-либо из них те функции, которые вам нужны?
Я написал сканер документов с использованием Microsoft Access VBA, который может захватывать страницы со сканера подачи документов и выводить PDF-файлы, и в настоящее время я переписываю его на Python, но я еще не достаточно обеспокоен, чтобы выяснить, как построить некоторые вид оптического распознавания текста, так как в Python не так много вариантов для распознавания текста. Считыватели штрих-кодов выглядят как вариант, так как обычно вы можете получить те, которые просто предоставляют поток последовательных данных с содержимым штрих-кода, который затем может быть использован в качестве имени файла ...
Похоже, что такие вещи должны быть доступны в виде платных решений для распознавания текста. Я думаю, что вам, возможно, придется пройти через оценку того, какие пакеты поддерживают массовое сканирование документов и сохранение файлов на основе правил.