1

Я пытаюсь скопировать текст из файла PDF в слово, однако, когда я вставляю текст в файл слова, строки в файле PDF "короче", поэтому он не занимает всю строку в слове, и мне приходится вручную объедините предложения, чтобы они выглядели как нормальные (используя backspace).

Я попробовал PDF paster paster, хотя он вроде работает, он удалял каждый разрыв строки, чтобы не было сохранено ни одного абзаца, но файл, который я пытаюсь скопировать, довольно большой, и мне нужно сохранить реальные абзацы. Есть ли способ составить слова так, чтобы они соответствовали строкам, насколько это возможно, и также учитывали фактические абзацы?

1 ответ1

0

Текст в PDF состоит из абсолютно позиционированных фрагментов текста, и в общем случае строки и разрывы абзацев специально не обозначаются. Таким образом, задача их правильного определения становится в большей степени OCR, что является сложной задачей, и вам, скорее всего, понадобится сложное программное обеспечение для достижения удовлетворительных результатов.

Например, само MS Word имеет функцию импорта PDF-документов, но также не всегда идеально распознает разрывы (например, когда фрагменты текста немного наклонены), как в случае с отсканированными и распечатанными документами. документы).

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .