1

Я не знаю, если это правильное место, чтобы задать этот вопрос, но ...

Мне нужен сканер (сканер подачи бумаги), где в зависимости от штрих-кода, номера или какого-либо идентификатора сканируемой бумаги создается файл PDF с именем на основе этого идентификатора.

Например: если я отсканирую страницу с номером 12345 в верхнем левом углу страницы, будет создан файл PDF с именем 12345.pdf.

Любые предложения будут с благодарностью!

4 ответа4

2

Если вы ищете сканер документов, который имеет возможность выполнять пакетное разделение с использованием штрих-кода и переименовывать их на основе штрих-кода и зонированного распознавания текста, вы можете попробовать сделать это с помощью сканера Fujitsu в комплекте с программным обеспечением scan all all pro. Другой вариант - вы используете сканер Kodak с захватом Kodak, но программное обеспечение продается отдельно и стоит довольно дорого. Если у вас есть сканер на базе ISIS, вы можете попробовать программное обеспечение Quick Scan Pro, чтобы сделать это. Я использовал scan all pro с 3 лет назад для оцифровки миллионов страниц, и он отлично работает.

1

Это работает в Linux для случая числа в верхней части страницы. Вы можете поиграть с параметрами сканирования и параметрами преобразования PDF, чтобы получить то, что вы хотите (сжатие и т.д.).

#!/bin/bash
# Requires scanimage, tesseract and ImageMagick convert

# Scan the image to temp file. Change command for your scanner
scanimage -d hpaio:/usb/Deskjet_F4100_series?serial=CN7CH4T29D04TJ \
--mode Lineart --resolution 300 --compression None --format=tiff \
> out.tif

# OCR to tmp.txt file
tesseract out.tif tmp

# Extract first line --contains number (thanks Serverfault 66587)
read -r NUMBER < tmp.txt

# Convert image to pdf with the desired name
convert out.tif $NUMBER.pdf

# Clean up
rm out.tif tmp.txt

Если вы предпочитаете штрих-коды, то вы можете попробовать обработать изображение с помощью Gocr. Он будет читать некоторые типы штрих-кодов. Извлечь полученное число немного сложно, но это можно сделать с помощью фильтра sed.

1

Вы смотрели на такие вещи, как Readiris, SimpleOCR или другие альтернативы OCR, чтобы увидеть, есть ли у какой-либо из них те функции, которые вам нужны?

Я написал сканер документов с использованием Microsoft Access VBA, который может захватывать страницы со сканера подачи документов и выводить PDF-файлы, и в настоящее время я переписываю его на Python, но я еще не достаточно обеспокоен, чтобы выяснить, как построить некоторые вид оптического распознавания текста, так как в Python не так много вариантов для распознавания текста. Считыватели штрих-кодов выглядят как вариант, так как обычно вы можете получить те, которые просто предоставляют поток последовательных данных с содержимым штрих-кода, который затем может быть использован в качестве имени файла ...

Похоже, что такие вещи должны быть доступны в виде платных решений для распознавания текста. Я думаю, что вам, возможно, придется пройти через оценку того, какие пакеты поддерживают массовое сканирование документов и сохранение файлов на основе правил.

0

Извините за ответ на 3-летнюю тему, но я тоже искал что-то подобное в том месте, где я работаю. После некоторого исследования я наткнулся на Batch Scan To Pdf, который точно делает то, что вам нужно в вашем описании. Однако вместо обычных штрих-кодов они используют QR-коды. Они супер дешевые по сравнению с другими, которые я видел. Надеюсь, что это помогает другим, кто может нуждаться в подобной функциональности.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .