Недавно я преобразовал PDF в Microsoft Word, и после изменения поля и формата бумаги преобразованного файла я столкнулся с проблемой. В середине диалога есть знак абзаца. Вот пример:

«Когда Филлмор умирал, он был очень голоден. Но его доктор пытался умереть от жара или чего-то еще.
Филлмор не стал молчать о желании поесть, поэтому, наконец, доктор дал ему крошечную чайную ложку супа.
И все саркастично, Fillmore сказал: «Питание приемлемо», а затем умер. Нет перемирия. "

Предполагалось, что этот диалог находится в том же абзаце, и в преобразованной статье много проблем. Как мне это исправить? (Я надеюсь, что смогу все исправить сразу, что сэкономит время.)

2 ответа2

0

Из того, что я понимаю об этой проблеме, она связана с обработкой OCR, и OCR просто преобразует то, что понимает, и создает документ, много раз делая неправильные переводы, связанные с символами, которые могут быть неверно истолкованы. Так что, во всяком случае, это еще не ТОЧНАЯ наука, поскольку программы OCR настолько хорошо развиты, но их интерпретация еще не на 100% положительна. Мы всегда нуждаемся в исправлении этих ошибок вручную.

0

Я не думаю, что структура абзаца документа PDF такая же, как в любой программе обработки текста. Это просто расположение текста на листе, и символы представляются либо в виде напечатанного изображения, либо в виде связанного символа, но я не верю, что он выполняет такую информацию о форматировании, как цвет, абзацы и следующая строка или ввод кода.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .