Мой случай довольно конкретный, поэтому я постараюсь объяснить это быстро и точно. Я должен оцифровать несколько старых листов бумаги размером 230 мм x 268 мм (~ 9 "x 27,7"), сложенных в 4 части; Вы можете найти быстрый пример здесь, чтобы получить представление.
Сканирование и перекомпоновка - не совсем реальная проблема, я буду сканировать каждый раз и собирать его в фотошопе. Мне нужен файл .pdf с исходным отсканированным изображением страницы, а также с текстом для чтения / поиска и индексирования для поисковых систем.
Как вы можете видеть на приведенном выше рисунке, на странице также есть несколько блоков ADS, которые мне не нужны для распознавания текста, и их можно не указывать.
Теперь я использовал Acrobat Pro X для полученного файла .pdf, который я перекомпоновал через Photoshop. Результаты довольно хорошие, но, конечно, не идеальные, и я считаю, что наиболее проблематичным является исправление неверно разработанного текста и удаление или исключение ненужных областей документа.
Я хотел бы знать, есть ли приложение для редактирования основного текста OCR более практичным способом, чем то, что предлагает Acrobat. Adobe дает в панели инструментов "Найти подозреваемых" (что может очень раздражать в использовании), но подозрительный текст не всегда дополняется тем, что на самом деле не так, часто символы, которые он распознает как правильные, вовсе не являются (например, курсивом). "l" считаются "/" и аналогичными); к сожалению, мой текст частично состоит из шрифтов других языков, таких как японский или китайский, и текст в большинстве случаев превращается в дерьмовый бред, поэтому мне также нужно исправить неправильный текст в соответствии с выбираемыми символами.
Я думаю, что своего рода сравниваемый редактор, как на одной панели отсканированное изображение, а на другой текст OCR выбранной области документа, был бы наиболее идеальным решением для быстрого и эффективного исправления ошибок.
Возможности определять и исключать области отсканированного документа, которые должны быть обработаны OCR, были бы действительно очень необходимой функцией; Я обнаружил, что с помощью Acrobat вы можете использовать инструмент редактирования прямой стрелки для удаления текстовых фреймов, которые могут быть функциональными, даже довольно сложными в использовании, так как большую часть времени вы нажимаете на отсканированное фоновое изображение.
Любое предложение для этого типа работы? Может быть, другой рабочий процесс более практичным и / или эффективным? Любые советы приветствуются!
Я на Win 7 64-битной машине.