PDF-файлы являются отличным форматом архива для отсканированных изображений, но Acrobat не позволяет редактировать текстовый слой документа (часть, из которой можно копировать и вставлять), оставляя только простое распознавание текста. Существуют ли бесплатные альтернативы, которые позволяют редактировать текстовый слой?
3 ответа
Отсканированный документ, преобразованный в PDF, изначально не содержит текста. Он состоит из страниц, каждая из которых покрыта полностраничным пиксельным изображением. Это изображение может содержать или не содержать области, которые выглядят так же, как фигуры символов, идентифицируемые человеческим мозгом как буквы и "текст".
Программно это не текст, а только пиксели.
Чтобы вставить в PDF, полученный из отсканированных изображений, что-то, что является реальным текстом, можно использовать только процесс распознавания. Это добавит дополнительный слой контента на страницы PDF. Этот дополнительный слой будет содержать все идентифицированные (или неправильно идентифицированные) символы за формами пикселей как настоящие глифы от реального шрифта. Однако эти символы реального текста имеют специальную разметку PDF, помечающую их как визуально не отображаемые зрителем (или при печати). Их существование будет отображаться только при поиске (или выделении) текста (или при попытке скопировать и вставить участки изображения, когда активен Acrobat Text Touchup Tool).
Итак, ваш реальный вопрос заключается в следующем: «Результаты распознавания для моих отсканированных документов PDF являются неоптимальными.Не все персонажи правильно определены. Я хочу отредактировать скрытый текст, чтобы улучшить результат распознавания. Как мне это сделать с помощью бесплатного инструмента?" ?
Изменить: я обычно не использую Acrobat. Но только сейчас у меня была возможность посмотреть профессиональную версию 9.1.3 на компьютере коллеги.
Первое, что я проверил: правда ли, что Acroabat не позволяет редактировать текст OCR?
Ответ: нет, не правда. Я мог бы использовать встроенный механизм распознавания текста Acrobat для захвата текста случайно отсканированного документа, который я искал в Google и загружал из Интернета. После этого этот текст можно было легко редактировать с помощью инструмента TouchUp Text Tool, доступного через пункт меню « Расширенное редактирование» .
Процедура:
- Запустите Acrobat Professional; Загрузите отсканированный PDF-документ.
- В меню Документ выберите OCR распознавания текста и выберите распознавание текста с помощью оптического распознавания символов.
- Решите, какие страницы вы хотите, чтобы OCR в окне распознавания текста.
- Запустите процесс и дождитесь его завершения.
- Теперь используйте меню « Сервис» , «Расширенное редактирование» и запустите инструмент TouchUp Text.
- Отсюда вы сами разберетесь ...
Свободных редакторов PDF очень мало.
Единственный бесплатный, который я знаю, это OpenOffice с Sun PDF Import Extension.
Из статьи techsupportalert PDF-файл позволяет редактировать со 100% точностью макета:
Расширение Sun PDF ImportOpenOffice с расширением Sun PDF Import создает гибридный файл PDF / ODF. Созданный файл будет иметь нормальное расширение .pdf. Сам по себе это файл PDF, который может быть просмотрен любым средством просмотра PDF, таким как Adobe Reader, PDF-XChange Viewer или Foxit Reader.
Кроме того, он содержит исходный ODF-файл, который можно открыть с помощью OpenOffice непосредственно из файла PDF для редактирования без потери макетов, закладок, гиперссылок или форматов.
Чтобы создать гибридный файл PDF, запустите OpenOffice с установленным расширением импорта Sun PDF, выберите "Файл", выберите "Экспорт в PDF", откроется окно "Параметры PDF", подобное снимку экрана, затем установите флажок "Создать гибридный файл" и нажмите "Экспорт". ».
Этот гибридный PDF-файл позволяет сохранить два отдельных формата файла, поскольку он объединяет два в один. Он готов для совместного использования и просмотра с помощью программы чтения PDF, однако его можно открыть для идеального редактирования так же, как и обычный файл OpenOffice. Вероятно, будет хорошей идеей назвать гибридный файл, заканчивающийся на «-odf.pdf», чтобы отличать его от обычного PDF-файла.
Расширение Sun PDF Import совместимо с OpenOffice.org (3.0 или более поздней) или StarOffice 9.
Похоже, что вы подразумеваете под "поток текста" текстовые данные из PDF. Точно сказать не могу. Если это так, я использую стандартный буфер обмена и любой текстовый редактор, я использую KEDIT из-за его возможностей редактирования столбцов, чтобы захватывать данные и редактировать их. Проблема в том, что вы теряете любое форматирование с этим, а иногда и с таблицами, порядок данных будет испорчен. Но для простых снимков это работает.