Я ищу решение для ускорения процесса сканирования документов, особенно для документов, которые не подходят для обычного сканера документов с автоматической подачей документов (АПД). Для этих документов в настоящее время я использую планшетный сканер.

Сначала я подумал, что решением будет более быстрое сканирующее оборудование (например, сканер камеры вместо обычного планшетного сканера). Но я заметил, что общее время сканирования составляет всего 20% для оборудования сканирования (движение сканирующей головки), но 80% для программного обеспечения (улучшение изображения и оптическое распознавание символов).

Для ускорения сканирования я искал следующее: (а) программное обеспечение для сканирования, которое будет использовать не только одно ядро / поток ЦП, но и несколько ядер / потоков. Несмотря на долгий поиск, я пока не смог найти многопоточную программу для TWAIN. (б) рабочий процесс + программное обеспечение: программа, которая дает возможность определять мои собственные профили сканирования. Но я не смог найти программное обеспечение, которое предлагает профили сканирования и в то же время хорошее автообрезание (и OCR не только на английском языке). (c) рабочий процесс, т. е. перемещение OCR на отдельный шаг (но я не получил от этого никакой скорости, поскольку программное обеспечение, входящее в комплект моих планшетных сканеров CanoScan, требует одинакового времени для сканирования, независимо от того, включаю ли я OCR или нет)

Как я могу ускорить сканирование?

Для тех, кто знает стороннее программное обеспечение для сканирования документов на рынке: увижу ли я значительную разницу в скорости между двухъядерным процессором i7 и четырехъядерным процессором i7?

Под программным обеспечением для сканирования документов я понимаю программное обеспечение, которое включает в себя функции улучшения изображения (например, выравнивание по горизонтали, автообрезка, удаление экрана), распознавание текста (не только для английского языка), возможность сохранять файлы нескольких типов (jpg, jpeg2000, TIFF, PDF с возможностью поиска), PDF/A)и профили сканирования (= определенная пользователем комбинация точек на дюйм, настроек улучшения изображения, языка распознавания текста, типа файла).

1 ответ1

2

Во-первых, отделите процесс сканирования от процесса постобработки. Сделайте это, отсканировав изображение как изображение с более высоким разрешением 300-600 точек на дюйм или более. Файлы будут большими, но только временными, пока вы не отправите процесс. Размер файла будет самым большим замедлением, поэтому уменьшите разрешение и битовую глубину настолько низко, насколько это возможно. (например, используйте серую шкалу, если вам не нужен цвет). То, что вы не хотите, это 24-битное изображение 1200DPI с разрешением 8-1/2 "x11", которое составляет 100 МБ каждый, если вам не нужно; они слишком долго сохраняются и открываются.

Затем, используя любое программное обеспечение, которое соответствует вашим потребностям, запустите вашу пост-обработку в пакетном режиме по вашему усмотрению. Все программное обеспечение функционирует по-разному, поэтому вам придется изучить свое программное обеспечение.

Здесь есть подвох, хотя. Большинство программ работают только на 1 ядре вашего многоядерного процессора, поэтому лучший способ ускорить работу - это открыть вашу программу несколько раз и разделить пакеты между открытыми экземплярами программы. Большинство программ не открывают несколько экземпляров, поэтому вы должны запускать программу либо из меню "Пуск" вручную, либо из команды запуска с помощью специального "переключателя". В зависимости от вашей программы зависит, как вы это делаете. Например, Acrobat нужно запустить из команды запуска как «ACROBAT /N», чтобы открыть новый экземпляр, если экземпляр уже открыт.

Если у меня будет более 10000 страниц для последующей обработки, то в течение дня я открою 3 экземпляра на 4-ядерном компьютере и разделю задания на 3 экземпляра, чтобы я мог использовать компьютер (процессор работает на 75%, оставляя 25 % за "служебное использование"). Ночью я запускаю 4 экземпляра, чтобы максимально использовать компьютер.

Но если я знаю, что постобработка не займет так много времени, скажем, всего несколько часов, я не буду беспокоиться об открытии экземпляров; Я просто запускаю партию и отпускаю, пока не завершу. В случае двухъядерного компьютера это позволит вам выполнить постобработку и по-прежнему использовать компьютер. Большинство партий не займет так много времени. Имейте в виду, что если вы запускаете 2-3 экземпляра на двухъядерном компьютере, ваш компьютер может не функционировать в качестве настольного компьютера для активного использования, пока пакеты не закончатся.

Другой вариант, независимо от того, запускаете ли вы экземпляры или нет, состоит в том, чтобы зайти в диспетчер задач Windows и изменить приоритет ЦП для экземпляров ниже нормального, чтобы ваша активная работа имела приоритет перед фоновой постобработкой.

Что касается скорости, чем больше ядер работает, тем быстрее будет идти обработка. Проблема в том, что если у вас двухъядерный процессор, на котором вы запускаете однопоточное приложение, и вы покупаете сопоставимое четырехъядерное ядро и запускаете одно и то же приложение таким же образом, оно не будет работать быстрее. Итак, хитрость заключается в том, чтобы запускать ваше однопоточное приложение одновременно несколько раз, чтобы максимально использовать возможности вашего процессора.

В конце постобработки сохраните документ (ы) в желаемом формате, затем пакет QC перед удалением изображений.

Если вы используете Acrobat и запускаете большие партии, будьте готовы к проблемам! Ищите решения и находите больше людей с такими же проблемами! Акробат это боль!

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .