В Linux - Как извлечь текст из .pdf
в котором текст действительно является текстом, а не отсканированным изображением?
Я хочу что-то, что я могу использовать в командной строке / в сценарии, а не в интерактивном режиме.
(Я не хочу конвертировать в .tif
и использовать OCR - текст уже доступен в файле .pdf
, так зачем вводить неточности из-за несовершенного OCR?)
2 ответа
pdftotext
который поставляется с poppler, попытается извлечь любой текст, найденный в PDF.
Игнасио отвечает просто отлично. На самом деле, это было бы первым делом в моем списке. Ну, и, возможно, предложить инструмент pdftohtml
, который также поставляется с poppler, в сочетании с pdfreflow, если вы хотите попытаться собрать текст в абзацы и т.д. (Конечно, это даст вам вывод HTML, но преобразование HTML в простой текст может быть сделано разными способами.)
Вот и некоторые другие варианты.
Инструмент командной строки ebook-convert
от Caliber, который может конвертировать.PDF-файлы в виде обычного текста (или RTF или нескольких форматов электронных книг, таких как ePub и т.д.)
pdftxtextract
от Podofo
Abiword может быть вызван из командной строки для преобразования между любыми форматами, которые он может вводить из /export, и с соответствующим плагином импорта, включая PDF-файлы:
abiword --to=txt file.pdf
(Честно говоря, я думаю, что AbiWord и Calibre оба используют библиотеки poppler, но я не уверен.)