4

Я получаю много PDF-файлов от других людей, состоящих из отсканированных старых документов. К сожалению, иногда текст на отсканированных изображениях, хотя и читается, выглядит зернистым и его трудно прочитать.

До сих пор я мог извлекать текст, используя OCR, в текстовый документ. Однако, поскольку эти старые документы часто имеют иллюстрации и запутанное форматирование, я действительно хотел бы просто удалить старый зернистый текст и заменить его созданными компьютером шрифтами. Другими словами, я хотел бы максимально сохранить PDF и форматирование его страниц, одновременно "очистив" текст, заменив его, скажем, на новый римский.

В течение нескольких дней я искал в Интернете простой, автоматизированный способ выполнить такую очистку, и я пока ничего не обнаружил. Определенно кажется, что должен быть способ сделать это, это не кажется таким уж сложным, но, возможно, я упускаю из виду некоторые аспекты этой проблемы, которые ставят ее за пределы того, что в настоящее время можно сделать с помощью OCR.

Какие-либо предложения?

2 ответа2

2

Даже собственное программное обеспечение Adobe не годится для этого или не дает четкого представления, как это сделать.

С помощью Adobe Acrobat X вы можете создать текстовый слой через меню («Просмотр» | «Инструменты» | «Распознать текст») или «Инструменты» на панели инструментов, а затем «Распознать текст» на панели «Инструменты».

Затем у вас есть возможность выполнить распознавание документа или найти "подозреваемых". "Подозреваемые" - это возможные результаты распознавания, которые выглядят неправильно (не проверка орфографии?). После того, как вы просмотрели подозреваемые, кажется, что нет никакого способа снова получить доступ к текстовому слою или отредактировать его, за исключением повторения OCR.

Вы можете выбрать диапазон страниц для ограничения распознавания текста (например, если у вас многоязычный документ), но вы не можете ограничить его выбором.

Учитывая, что это такая полезная функция, разочаровывает, что Adobe не делает ее очень удобной для пользователя.

Изменить: два других возможных решения.

Adobe Acrobat с использованием ClearScan

При выполнении распознавания текста с помощью Adobe Acrobat вы можете изменить стиль вывода PDF со стандартного для поиска формата изображения на ClearScan. Этот формат на самом деле также изменит изображение, заменяя символы контурами, полученными из OCR. Это сделает ваш PDF более читабельным и добавит текстовый слой, но это изменит исходное изображение.

Infix PDF Editor

Эта программа, кажется, способна отображать текстовый слой, но все еще кажется сложным исправление мест, где распознавание текста в Adobe работает неправильно (например, одиночные слова в их собственных позициях).

К сожалению, ни один из этих вариантов не находится в свободном доступе.

0

Зависит от ваших конкретных обстоятельств (используемые шрифты, диаграммы, сколько требуется очистки ...), но у меня были хорошие результаты с FineReader Professional Edition ...Сканирует наиболее распространенные форматы изображений (сканирование, TIFF, JPG и т.д.) И может конвертировать в HTML или слово среди других ...

Это не бесплатно, но вы не сказали, что искали это. У меня была куча OCR, которую я делал некоторое время назад, и она сделала потрясающую работу OCR с низким уровнем ошибок. <<< --- Я не знаю о сегодняшнем дне, но 5 лет назад, когда я впервые получил это, я попробовал несколько других пакетов OCR, и точность распознавания текста была, как правило, «ужасной» ... хотя они и рекламировали это ( правильно) как 90-95-98%. Проблема в том, что даже на 99% вы просматриваете несколько слов, чтобы исправить / страницу текста. Это было слишком высоко для моего уровня терпимости.

Я считаю, что сырая розничная цена была немного дорогой (но мне обычно нравится бесплатное, купленное ПО лучше того стоит; я свободно владею "gninux-ese"), но у них есть предложения (или они были, когда я покупал), о модернизации от другого программного обеспечения примерно на 50% от их розничной цены, что также составляет цену их обновления. Я купил его, хотя, когда он был примерно в версии 6 или 7, когда у меня были новые проекты, которые требовали подобного - я купил обновление до текущей версии. Последнее, что я купил, было 9.0.

Моя единственная [ неясная ] говядина с тем, что она не распознает Unicode и не создает файлы Unicode. В настоящее время они поддерживают 186 языков (чтение с веб-сайта) (AFAIK, все языки включены в Prof. Ver.), Но в нем сохраняются файлы в кодированных региональных наборах символов или «кодовых страницах» (ibm-cp850, ms-cp1250, iso-8859-1 и т. д.) вместо UTF-8, что было моим предпочтением. Я сканировал смешанные алфавитные файлы, которые в конечном итоге я буду редактировать в UTF-8.

Их программное обеспечение отлично работает без обучения. Его можно научить распознавать специфичные для пользователя буквы, хотя я не нашел этот процесс настолько удобным, как мне бы хотелось (но на самом деле он не был нужен для большей части того, что я делал (или делаю).

В имеющейся у меня версии (9) он также может считывать данные с снимка экрана, что иногда удобно для программ, которые не поддерживают копирование / вставку.

Похоже, что теперь у них есть возможность попробовать перед покупкой: website: finereader.abbyy.com (professional prod @ http://finereader.abbyy.com/professional).

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .