Я пытаюсь преобразовать большое количество PDF-файлов (~ 15000) в обычный текст, используя pdftotext. Это работает довольно хорошо, за исключением нескольких PDF-файлов (~ 600), которые, я полагаю, являются «портфолио PDF».
Когда я запускаю эти PDF-файлы через pdftotext, он просто выводит:
Для лучшего опыта откройте это портфолио PDF в Acrobat 9 или Adobe Reader 9 или более поздней версии. Получить Adobe Reader сейчас!
Если я открою эти PDF-файлы в Adobe Reader, они будут выглядеть как два или более PDF-файлов в одном файле.
Кто-нибудь сталкивался с этой проблемой раньше? Можно ли использовать какой-либо инструмент для автоматического преобразования этих PDF-файлов? (Либо непосредственно к тексту, либо, по крайней мере, к обычным PDF-файлам, которые затем может понять pdftotext.)