8

Я ищу способ "одним щелчком" взять ЛЮБОЙ PDF и преобразовать его в обычный текст. В идеале на OSX или Linux.

В идеале решение должно включать в себя функциональность OCR, но это не обязательно.

Главным приоритетом является наличие чего-либо, что может принять ЛЮБОЙ файл БЕЗ конфигурации.

2 ответа2

23

Есть xpdf, который включает двоичный файл pdftotext .

Pdftotext преобразует файлы Portable Document Format (PDF) в обычный текст.

На Linux есть установщик. Похоже, он также входит в пакет poppler-utils . На OS X вы можете установить его, используя Homebrew (сначала установите его), а затем использовать

brew install homebrew/x11/xpdf

который загрузит исходные файлы и скомпилирует его для OS X. После этого просто используйте его так:

pdftotext your_pdf_file.pdf

который будет генерировать простой текстовый файл. Также есть несколько вариантов, для получения более подробной информации обратитесь к man pdftotext .

Альтернативой является poppler, в OSX:

brew install poppler

в Debian и друзья

apt-get install poppler-utils
0

Хорошим инструментом для Windows является A-PDF Text Extractor

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .