У меня есть эта страница с множеством ссылок на файлы .pdf.

Дело в том, чтобы искать определенные строки внутри них. PDF, без необходимости открывать их один за другим и выполнять поиск для каждого, потому что они много!

Кто-нибудь знает, как мы можем искать внутри этих PDF-файлов?

Есть идеи? Любое расширение браузера? Любой канал RSS, который позволяет это?

2 ответа2

1

Вы всегда можете использовать Google.

filetype:pdf site:http://xyz.com/abc <your keyword(s) here> сделают эту работу за вас. Вам просто нужно найти общий домен в PDF-файлах. Я имею в виду, что если на странице есть два PDF-файла, которые расположены по адресу http://xyz.com/abc/1.pdf и http://xyz.com/abc/2.pdf, то вы можете использовать site:http://xyz.com/abc . Только site:http://xyz.com тоже будет работать, но принесет вам все PDF-файлы, найденные на сайте.

Итак, вы хотите быть конкретным.

0

сначала скачайте файлы, затем найдите

find /path -name '*.pdf' -ls -exec pdftotext {} - \; | grep "your query"

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .