38

Когда я копирую текст из файла PDF в текстовый редактор, он оказывается искаженным различными способами. Форматирование как жирный шрифт и курсив теряются; мягкие разрывы строк внутри абзаца текста преобразуются в жесткие разрывы строк; тире, разбивающие слово на две строки, сохраняются даже тогда, когда их не должно быть; а одинарные и двойные кавычки заменяются на? приметы.

В идеале я хотел бы иметь возможность копировать текст из PDF и преобразовывать форматирование в HTML-коды, "умные кавычки", преобразованные в "и", и разрывы строк делать правильно. Есть какой-либо способ сделать это?

9 ответов9

51

Во-первых, вы должны понять, что такое PDF. PDF-файлы предназначены для имитации печатной страницы и предназначены только для формата вывода, а не для формата ввода. PDF - это, в основном, карта, содержащая точное расположение символов (отдельных букв или знаков препинания и т. д.) или изображений. В большинстве случаев PDF-файл даже не хранит информацию о том, где заканчивается одно слово и начинается другое, причем гораздо меньше таких вещей, как мягкие разрывы или жесткие разрывы для окончаний абзаца.

(Несколько последних PDF-файлов действительно хранят некоторую информацию об этом материале, но это новая технология, и вам посчастливится найти такие PDF-файлы. Даже если вы это сделаете, программа просмотра PDF может об этом не знать.)

В любом случае, ваше программное обеспечение должно реализовать какой-то "искусственный интеллект" для извлечения просто из местоположений отдельных персонажей, что такое слово, что такое абзац и так далее. Разное программное обеспечение будет делать это лучше, чем другие, и это также будет зависеть от того, как был создан PDF. В любом случае, вы никогда не должны ожидать идеальных результатов. Наличие выходного PDF не совпадает с исходным документом. Гораздо лучше попытаться получить это, если вы можете.

Стандартное решение вашей проблемы - использовать Adobe Acrobat Professional (дорогой, а не бесплатный ридер) для преобразования PDF в HTML. Даже это не даст идеальных результатов.

Существует бесплатное программное обеспечение, которое можно использовать для извлечения текста из PDF-файлов с некоторым сохранением форматирования, но опять же, не ожидайте отличных результатов. См., Например, калибр (который может быть преобразован в формат RTF), pdftohtml/pdfreflow или текстовый процессор AbiWord (со всеми включенными плагинами импорта / экспорта). Также есть плагин для импорта PDF для OpenOffice.

Но, пожалуйста, не ожидайте совершенства с любым из этих результатов. Вы идете против зерна здесь. PDF просто не подразумевается как редактируемый формат ввода.

8

Другой вариант - скачать и начать использовать бесплатную программу просмотра PDF Foxit (это хорошо). Затем вы можете «Сохранить как» и выбрать .txt, чтобы преобразовать его в текстовый файл. Это сохранит все форматирование. Не знаю, можете ли вы сделать то же самое в Adobe, потому что я перестал использовать его некоторое время назад, когда я перешел на Foxit.

5

Существует очень хороший онлайн-инструмент под названием Sej-da. Это имеет дело с Продвинутой Манипуляцией PDF. Там нет программного обеспечения для загрузки. Поскольку это новый онлайн-инструмент, он все еще находится в бета-версии. Это позволяет извлекать текст из PDF, а также предоставляет множество других функций PDF

http://www.sejda.com/

Краткий видеообзор функций Сейда был сделан 14 ноября 2012 года редакцией 3, его можно найти здесь:

http://revision3.com/tzdaily/sejda-online-pdf

4

Откройте файл PDF в браузере (проверены Google Chrome и Firefox), а затем скопируйте туда свой текст.

4

Вы можете использовать Adobe Acrobat Pro для этого.

Для таблиц: в Acrobat 9/10 появилась функция выбора таблиц. В Acrobat X вы можете просто нажать «Сохранить как»> «Электронная таблица»> «Excel». Он даже объединяет страницы в одну длинную электронную таблицу. Потрясающая особенность.

Для текста: аналогичная функция существует для экспорта в MS Word. Сохранить как> Word> Word Doc.

Источники:

0

Я нашел это очень полезным ( Удалить разрывы строк ):

Вот полезный трюк, чтобы быстро решить эту проблему без необходимости удалять все разрывы строк вручную. По сути, все, что он делает, это автоматически заменяет все нежелательные разрывы строк одним пробелом, заставляя весь текст объединяться в один абзац:

1- скопируйте нужный текст из PDF.

2 - вставить в новый документ Word.

3- нажмите «изменить», затем «заменить»

4- убедитесь, что вы находитесь в поле «найти что»

5- нажмите «больше», затем «специальные»

6- выберите «знак абзаца» (верхняя часть списка)

7- щелкните в поле «заменить на»

8- нажмите пробел один раз

9- нажмите «заменить все»

10 - нажмите «ОК», затем закройте окно «Найти и заменить».

0

Foxit будет переключаться между отображением исходного файла в виде обычного PDF или в виде текста, нажимая Ctrl + 6 (с небольшим изменением уровня масштабирования в текстовом режиме нет большого скачка в положении назад и вперед между чтением и копированием)

-1

Я пытался сохранить текст и формат PDF, который был организован в виде таблицы. В Acrobat Professional я понял, что есть опция «Сохранить как», которая позволяет сохранять документы в формате Excel. Это хорошо сработало для моих нужд. Я также заметил, что есть опция «Сохранить как Word». Я не пробовал это все же.

-1

Вы можете скопировать из Adobe Reader в MS Excel и отформатировать (таблица), как вы хотите, а затем скопировать и вставить из Excel. Это решение прекрасно работает. Вам не нужно покупать дорогой Adobe профессиональный экземпляр.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .