Удаление нетекстового текста из отсканированного файла OCRd PDF

Question

У меня есть PDF, созданный из отсканированного документа. OCR был использован для распознавания текста. В Acrobat, если я выделю текст и нажму «копировать с форматированием», я могу вставить форматированный текст в Word, поэтому кажется, что шрифты и цвета также встроены в документ в дополнение к обычному тексту и, возможно, к размеру.

Есть ли способ использовать эту информацию для создания PDF, который просто содержит отформатированный текст OCRd, без отсканированного изображения. В настоящее время мой документ показывает только отсканированное изображение, а текст находится на невидимом слое. Я хотел бы создать PDF-документ, который удаляет отсканированное изображение и отображает отформатированный текст, который в данный момент скрыт.

В следующем посте есть раздел «Как мы можем сделать невидимый текст видимым?« PDF имеет дополнительный пробел во всех словах после запуска через Ghostscript

Однако выполнение этого не показывает правильное форматирование текста (которое сохраняется при вставке в Word), и я также хотел бы удалить отсканированное изображение, чтобы в окончательном PDF-файле были только отформатированные (цвет, шрифт, размер) векторные шрифты и нет изображений.

score -3 · Answer 1 · 2011-03-09T19:38:42

Все ли сейчас делают все трудным образом, потому что программы сложнее, чем нужно? Я прочитал, что все готово, вы овладели полным контролем отсканированного текстового изображения, за исключением небольшого переформатирования.

Весь вопрос я просто не понимаю. Когда мы опознаем здесь самое простое бесплатное программное обеспечение, которое поставляется со сканером, оно может дать мне 3 простых вещи.

Текст, необработанный текст, как я хотел больше всего, без форматирования, без цветов, без большого количества переносов слов, это всего лишь "код" для тех букв, которые он видел. Это не должно быть перепечатано и проверено на повторное произношение. Этот текст может быть повторно обработан и переформатирован, изменен в размере, изменен в цвете. Человек просто счастлив, что не должен перепечатывать его. Это очень изменяемый и крошечный, это просто код для символов.

Программное обеспечение OCR, которое помещает пробелы между всеми буквами, должно быть либо перенастроено, либо выброшено. Если оно помещает пробелы там, где они существуют, то так оно и будет существовать снова. Пропустите, что я оставляю их. Может быть, немного reKerning (собирая буквы вместе) в программе Word / PDF, чтобы сжать его.
Форматированный текст отформатирован по столбцам, помечен абзацами, обернут, и может быть цветным или размерным, но изменить это легко. Этот выбор OCR полезен для того, чтобы отбросить его заранее отформатированным и повторно распечатать / использовать как есть. это все еще очень маленький размер, без графики или изображений. ЕСЛИ я использую отформатированный текст и хочу переформатировать его для другого макета / форматирования, я мог бы также просто OCRed только текст (1), использовать текст RAW и быстро перетекать, переформатировать его и повторно раскрасил это.
Графический объект, вещи, которые невозможно распознать, поскольку он не может распознать буквы, это может быть вся страница или части страницы, например подпись, или некоторые испорченные области, или элементы изображения.

Этот отсканированный раздел можно использовать с (1) или (2), чтобы либо вручную поместить графику обратно в переформатированные документы, либо просто вставить ее в отформатированную область. Если "графический" или фоновый шум на странице не требуется, тогда программное обеспечение OCR настроено на выполнение только (1) или (2), что OCR делает лучше всего. (1) выяснить, что текст, и игнорировать все остальное. Или (2) изобразите текст, форматирование и расположение текста.

Это (3) изображение не может попасть в "буфер копирования" стандартного содержимого Windows одновременно с необработанным текстом или форматированным текстом для обычной межпрограммной вставки копии. Это не просто текст или просто RTF, это не просто картинка, это грязный комбо. Это может быть копировальная паста "специальные данные".

Это может быть распечатано из программного обеспечения OCR, или "печать" PDF может быть сделана из программного обеспечения OCR (где это все еще собрано). В основном, буфер копирования компьютера / программ может выполнять (1) текст, может (2) текст с форматированием. Но чтобы сделать изображение и Rich Text также, разве это "смешивание данных" для других программ, чтобы распознать его?

Выбор текста ТОЛЬКО в документе PDF, содержащем текст, приведет к перемещению текста в буфер копирования и вставки. Вы можете вставить этот текст во что угодно, и уже можете изменить любой интервал или абзац и табуляцию в программе Wurd.

PDF может быть только текстом, текстом с форматированием, текстом и изображением, и он может быть разделен одним быстрым движением, если он не защищен. Копировать вставить. Вставьте только текст (вы уже смогли вставить в Word) в PDF и сделайте простой текстовый PDF.

ЕСЛИ это векторный (точки и кривые) контур текста? Невидимый, чья это гениальная идея - иметь это в распоряжении при выполнении таких простых вещей? Некоторый программист, который не может оставить себя в покое достаточно. Он должен был бы быть повторно OCRed, это больше не сырой текстовый код. Вы не можете скопировать Вставить векторный текст / графику как текстовые символы.

С помощью векторов в Photoshop вы можете изменить его стилизацию, согнуть его, чтобы подогнать его по размеру, это векторы, а не текстовые символы, которые сейчас очень трудно перерисовать или переформатировать. Размер резко увеличивается, если это векторы.

Если он растеризован (сделал его изображением вместо векторов), который как бы завершает контур, то не "обводит" векторный контур или не стилизует его. Превращение его в «рисунок / графику» снова вместо текста в формате RTF или векторов блокирует легкость перемещения, переупаковки, переформатирования. Размер будет самым большим размером после растеризации.

И если у вас возникнут проблемы с передачей его в PDF или WORD, тогда они собираются перекодировать PDF, поэтому вы задаете вопрос, и я смотрю на него, думая:

Ты понял
у вас есть большой контроль над этим, больше, чем нужно
Вы могли сделать что-нибудь с этим что-нибудь
как вы могли быть потеряны, вы освоили преобразование его
у вас есть и фотографии, и текст
Вы смогли скопировать вставить текст
у тебя все есть

_{Это было отредактировано, так как комментарии были отправлены.}

Сейчас выбран русский

Удаление нетекстового текста из отсканированного файла OCRd PDF

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf ocr.

Удаление нетекстового текста из отсканированного файла OCRd PDF

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf ocr.

Похожие