Т.Л., др? Начните с Nuance PowerPDF Advanced.
Я оценил программное обеспечение OCR в декабре 2014 года в рамках подготовки к большому проекту - OCR на миллионах англоязычных страниц, созданных партиями. Если вы готовы потратить несколько сотен долларов, у вас есть много вариантов; пробные версии могут помочь вам, если вам нужно конвертировать всего несколько сотен страниц.
Многие программные пакеты хотят загрузить все входные файлы, сделать OCR и объединить беспорядок в один выход. ИМХО, это совершенно неправильно, я понятия не имею, кто бы этого хотел. Я искал настоящую партию: один выходной файл для каждого входного файла, автоматическая операция, не останавливайтесь ни перед чем, дайте мне подробный отчет в конце. Спойлер: я не нашел этого.
Пакеты в алфавитном порядке следуют. Цены, указанные ниже, указаны в списке, но скидок предостаточно. Возьмите мои комментарии о точности с долей соли; Ваши входные данные не будут такими же, как мои входные данные, поэтому ваш пробег, безусловно, будет отличаться.
ABBYY Finereader 12 Corporate: 400 долларов США. Пакетная функция называется "Диспетчер задач" и находится в меню "Инструменты". Он будет обрабатывать файлы из папки, включая подпапки; он с радостью создаст отдельный выходной файл для каждого входного файла. Кажется, он не способен сохранить иерархию входных папок; все выходные файлы были помещены в одну и ту же папку. В моих тестах точность была высокой, но все же самая низкая из перечисленных здесь пакетов.
Adobe Acrobat XI: 300 долларов. Пакетная функция называется «Распознавание текста / В нескольких файлах», которую можно найти, нажав на Инструменты (третья панель инструментов, верхняя правая часть главного экрана). Обрабатывает подпапки, по одному на каждый вход. Останавливает и выдает запрос, если находит файл, защищенный паролем. Не сохраняет входное дерево каталогов по умолчанию; можно сделать, записав вывод в ту же папку, что и ввод. Точность была довольно хорошей в моих тестах.
Nuance OmniPage Ultimate (он же v19): 500 долларов. Пакетная функция называется "DocuDirect", и это отдельная программа, которая поставляется вместе с пакетом. Он будет обрабатывать папки и подпапки; если вы правильно выберете объекты, они сохранят дерево входных каталогов в области вывода. Один выход для каждого входа. Останавливает и требует пароль для защищенного файла. Похоже, что превосходно использует преимущества многоядерных процессоров для параллельного выполнения задач. Точность была превосходной. Но стабильность пакетного процессора плохая; нечеткий документ остановит его, никогда не восстановит, с легкостью сорвав партию.
Nuance PowerPDF Advanced v1.1 (преемник OmniPage Ultimate): $ 150. Пакетная функция называется "Пакетный конвертер" и доступна из основной программы на вкладке "Расширенная обработка". Он будет обрабатывать папки и подпапки, сохраняя структуру ввода в выводе. Один выход для каждого входа. Будем использовать несколько ядер, но не агрессивно; это означает, что я не мог заставить его насытить многоядерный хост. Точность отличная, такая же хорошая или лучшая, как у OmniPage. Плохие или нечеткие файлы не приводили к зависанию. Пакетный процессор записывает (шокирует) текстовый файл журнала в выходной каталог.
ReadIris Corporate 14: 600 долларов Пакетная функция вызывается элементом "Пакетное распознавание текста", которое открывается нажатием кнопки "Из файлов" на главном экране. Он будет обрабатывать папки и подпапки, по одному выводу на каждый вход, и по умолчанию структура выходного каталога соответствует структуре входного каталога. Останавливает и требует пользовательский ввод на неверный файл; обрабатывает без дальнейшей жалобы все защищенные документы, очевидно, путем распознавания изображения. Точность была очень хорошей, наравне с Acrobat.
На моем настольном компьютере (только двухъядерный) с выбранными мне входами каждый пакет обрабатывал страницу не менее 3 секунд; некоторые взяли больше. Может быть в состоянии справиться с этим на машине с большим количеством ядер.
Есть много ошибок, обязательно спланируйте их: недействительные PDF-файлы (некоторые пакеты останавливаются), PDF-файлы, защищенные паролем (некоторые пакеты останавливаются, другие конвертируются в любом случае!) И повернутые страницы (альбомная, а не книжная) Если вы хотите, чтобы пакет выполнялся до конца, вы должны подготовить область ввода для этих пакетов очень, очень тщательно. Изучите функцию печати в PDF пакета GhostScript, чтобы узнать, как снять защиту с PDF-файлов.
Запуск больших пакетов может привести к истощению памяти и проблемам с зависанием, даже если это не должно (а, возможно, утечки памяти). Если вы вообще занимаетесь какой-либо автоматизацией, то после того, как на самом деле произошло, возникает большая проблема: какие документы не удалось обработать, какие не удалось обработать и т.д. Это похоже на то, как люди никогда не слышали о настольном программном обеспечении, которое называется «лог-файл»
Наконец, получить поддержку, даже в качестве платящего клиента, довольно сложно для этих пакетов для массового рынка. Например, я пожаловался одному уважаемому представителю службы поддержки клиентов о пакете (который должен остаться безымянным), висящим для некоторых больших входов. Я ждал 36 часов, прежде чем сдаться :). Они сладко предложили ограничить размер партии до 300 документов. Это было совершенно неприемлемо для меня, но, эй, он получил этот билет поддержки, черт побери, быстро? И это все, что имеет значение, верно? Вздох.
НТН