1

Я пытаюсь преобразовать большое количество PDF-файлов (~ 15000) в обычный текст, используя pdftotext. Это работает довольно хорошо, за исключением нескольких PDF-файлов (~ 600), которые, я полагаю, являются «портфолио PDF».

Когда я запускаю эти PDF-файлы через pdftotext, он просто выводит:

Для лучшего опыта откройте это портфолио PDF в Acrobat 9 или Adobe Reader 9 или более поздней версии. Получить Adobe Reader сейчас!

Если я открою эти PDF-файлы в Adobe Reader, они будут выглядеть как два или более PDF-файлов в одном файле.

Кто-нибудь сталкивался с этой проблемой раньше? Можно ли использовать какой-либо инструмент для автоматического преобразования этих PDF-файлов? (Либо непосредственно к тексту, либо, по крайней мере, к обычным PDF-файлам, которые затем может понять pdftotext.)

1 ответ1

0

Вы можете использовать Xpdf.

У него есть утилита pdfdetach которая может извлекать файлы из портфолио Pdf.

pdfdetach -saveall your_pdf_portfolio.pdf

Я не знаю, какой pdftotext вы используете, но Xpdf также имеет свой собственный pdftotext .

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .