19

В Linux - Как извлечь текст из .pdf в котором текст действительно является текстом, а не отсканированным изображением? Я хочу что-то, что я могу использовать в командной строке / в сценарии, а не в интерактивном режиме. (Я не хочу конвертировать в .tif и использовать OCR - текст уже доступен в файле .pdf , так зачем вводить неточности из-за несовершенного OCR?)

2 ответа2

21

pdftotext который поставляется с poppler, попытается извлечь любой текст, найденный в PDF.

9

Игнасио отвечает просто отлично. На самом деле, это было бы первым делом в моем списке. Ну, и, возможно, предложить инструмент pdftohtml , который также поставляется с poppler, в сочетании с pdfreflow, если вы хотите попытаться собрать текст в абзацы и т.д. (Конечно, это даст вам вывод HTML, но преобразование HTML в простой текст может быть сделано разными способами.)

Вот и некоторые другие варианты.

Инструмент командной строки ebook-convert от Caliber, который может конвертировать.PDF-файлы в виде обычного текста (или RTF или нескольких форматов электронных книг, таких как ePub и т.д.)

pdftxtextract от Podofo

Abiword может быть вызван из командной строки для преобразования между любыми форматами, которые он может вводить из /export, и с соответствующим плагином импорта, включая PDF-файлы:

abiword --to=txt file.pdf

(Честно говоря, я думаю, что AbiWord и Calibre оба используют библиотеки poppler, но я не уверен.)

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .