9

Я использую Google Desktop Search (я в Vista), и не все мои файлы PDF распознаются в моей папке архива. Это нормально, поскольку « файлы PDF, содержащие отсканированные изображения » не индексируются ( http://desktop.google.com/support/bin/answer.py?hl=ru&answer=90651 ).

Поэтому я хотел бы распознать многие из моих файлов PDF, которые еще не были распознаны. Моя цель: я даю программе папку, и она самостоятельно ищет в подпапках файлы PDF, которые необходимо преобразовать в файлы PDF-OCR.

Примечание. В прошлом, если PDF-файл был защищен паролем, я удалял пароль с помощью другого пакетного (платного) инструмента: verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/

Любая (не слишком дорогая) идея?

Я уже пробовал: Finereader 6 pro на xp в то время, но пакетный процессор не был включен ... Paperfile paperfile.net, который использует Tesseract http://code.google.com/p/tesseract-ocr/ . Но OCR - это только PDF в текст, а не PDF в PDF! Есть еще один проект http://code.google.com/p/ocropus/

Заранее спасибо ;)

4 ответа4

5

Т.Л., др? Начните с Nuance PowerPDF Advanced.

Я оценил программное обеспечение OCR в декабре 2014 года в рамках подготовки к большому проекту - OCR на миллионах англоязычных страниц, созданных партиями. Если вы готовы потратить несколько сотен долларов, у вас есть много вариантов; пробные версии могут помочь вам, если вам нужно конвертировать всего несколько сотен страниц.

Многие программные пакеты хотят загрузить все входные файлы, сделать OCR и объединить беспорядок в один выход. ИМХО, это совершенно неправильно, я понятия не имею, кто бы этого хотел. Я искал настоящую партию: один выходной файл для каждого входного файла, автоматическая операция, не останавливайтесь ни перед чем, дайте мне подробный отчет в конце. Спойлер: я не нашел этого.

Пакеты в алфавитном порядке следуют. Цены, указанные ниже, указаны в списке, но скидок предостаточно. Возьмите мои комментарии о точности с долей соли; Ваши входные данные не будут такими же, как мои входные данные, поэтому ваш пробег, безусловно, будет отличаться.

ABBYY Finereader 12 Corporate: 400 долларов США. Пакетная функция называется "Диспетчер задач" и находится в меню "Инструменты". Он будет обрабатывать файлы из папки, включая подпапки; он с радостью создаст отдельный выходной файл для каждого входного файла. Кажется, он не способен сохранить иерархию входных папок; все выходные файлы были помещены в одну и ту же папку. В моих тестах точность была высокой, но все же самая низкая из перечисленных здесь пакетов.

Adobe Acrobat XI: 300 долларов. Пакетная функция называется «Распознавание текста / В нескольких файлах», которую можно найти, нажав на Инструменты (третья панель инструментов, верхняя правая часть главного экрана). Обрабатывает подпапки, по одному на каждый вход. Останавливает и выдает запрос, если находит файл, защищенный паролем. Не сохраняет входное дерево каталогов по умолчанию; можно сделать, записав вывод в ту же папку, что и ввод. Точность была довольно хорошей в моих тестах.

Nuance OmniPage Ultimate (он же v19): 500 долларов. Пакетная функция называется "DocuDirect", и это отдельная программа, которая поставляется вместе с пакетом. Он будет обрабатывать папки и подпапки; если вы правильно выберете объекты, они сохранят дерево входных каталогов в области вывода. Один выход для каждого входа. Останавливает и требует пароль для защищенного файла. Похоже, что превосходно использует преимущества многоядерных процессоров для параллельного выполнения задач. Точность была превосходной. Но стабильность пакетного процессора плохая; нечеткий документ остановит его, никогда не восстановит, с легкостью сорвав партию.

Nuance PowerPDF Advanced v1.1 (преемник OmniPage Ultimate): $ 150. Пакетная функция называется "Пакетный конвертер" и доступна из основной программы на вкладке "Расширенная обработка". Он будет обрабатывать папки и подпапки, сохраняя структуру ввода в выводе. Один выход для каждого входа. Будем использовать несколько ядер, но не агрессивно; это означает, что я не мог заставить его насытить многоядерный хост. Точность отличная, такая же хорошая или лучшая, как у OmniPage. Плохие или нечеткие файлы не приводили к зависанию. Пакетный процессор записывает (шокирует) текстовый файл журнала в выходной каталог.

ReadIris Corporate 14: 600 долларов Пакетная функция вызывается элементом "Пакетное распознавание текста", которое открывается нажатием кнопки "Из файлов" на главном экране. Он будет обрабатывать папки и подпапки, по одному выводу на каждый вход, и по умолчанию структура выходного каталога соответствует структуре входного каталога. Останавливает и требует пользовательский ввод на неверный файл; обрабатывает без дальнейшей жалобы все защищенные документы, очевидно, путем распознавания изображения. Точность была очень хорошей, наравне с Acrobat.

На моем настольном компьютере (только двухъядерный) с выбранными мне входами каждый пакет обрабатывал страницу не менее 3 секунд; некоторые взяли больше. Может быть в состоянии справиться с этим на машине с большим количеством ядер.

Есть много ошибок, обязательно спланируйте их: недействительные PDF-файлы (некоторые пакеты останавливаются), PDF-файлы, защищенные паролем (некоторые пакеты останавливаются, другие конвертируются в любом случае!) И повернутые страницы (альбомная, а не книжная) Если вы хотите, чтобы пакет выполнялся до конца, вы должны подготовить область ввода для этих пакетов очень, очень тщательно. Изучите функцию печати в PDF пакета GhostScript, чтобы узнать, как снять защиту с PDF-файлов.

Запуск больших пакетов может привести к истощению памяти и проблемам с зависанием, даже если это не должно (а, возможно, утечки памяти). Если вы вообще занимаетесь какой-либо автоматизацией, то после того, как на самом деле произошло, возникает большая проблема: какие документы не удалось обработать, какие не удалось обработать и т.д. Это похоже на то, как люди никогда не слышали о настольном программном обеспечении, которое называется «лог-файл»

Наконец, получить поддержку, даже в качестве платящего клиента, довольно сложно для этих пакетов для массового рынка. Например, я пожаловался одному уважаемому представителю службы поддержки клиентов о пакете (который должен остаться безымянным), висящим для некоторых больших входов. Я ждал 36 часов, прежде чем сдаться :). Они сладко предложили ограничить размер партии до 300 документов. Это было совершенно неприемлемо для меня, но, эй, он получил этот билет поддержки, черт побери, быстро? И это все, что имеет значение, верно? Вздох.

НТН

3

Adobe Acrobat обработает папку PDF-файлов, и, как и большинство продуктов Adobe, существует 30-дневная пробная версия.
Функция находится в меню «Документ»:

Document > OCR Text Regocnition > Recognise text in multiple files using OCR

откуда вы можете добавить свою папку.

В Acrobat X функция доступна следующим образом:

Tools > Recognize Text > In Multiple Files
1

На самом деле, pdfsandwich был обновлен в течение последнего года, и мне было совсем не сложно установить его в Linux Mint. Результаты, которые он дает, уступают Adobe Acrobat, но это единственное работоспособное решение, которое я нашел в Linux до сих пор.

0

Попробуйте WatchOCR. Это программный пакет с открытым исходным кодом, который преобразует отсканированные изображения в текстовые PDF-файлы с возможностью поиска. Это бесплатный и открытый исходный код и имеет приятный веб-интерфейс для удаленного администрирования. При правильной конфигурации его можно использовать для создания пакетной службы pdf/ocr для всей сети через общие ресурсы smb. К сожалению, это только Linux. Но вы можете установить его на старый сервер, и тогда вся ваша организация сможет его использовать.

Если вы хотите сделать то же самое онлайн без установки чего-либо, попробуйте PDFCubed.com

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .