Сканирование сайта для файлов

Question

Привет! Я хотел бы загрузить все PDF-файлы с http://www.allitebooks.com/ и использовать wget. моя команда "http://www.allitebooks.com/" -P "C:\dummydir" -c -A pdf -r но я считаю, что пока она не может перейти по ссылкам на поддомен, как я могу это исправить он загружает, например, http://file.allitebooks.com/20170105/Internet%20of%20Things%20and%20Big%20Data%20Technologies%20for%20Next%20Generation%20Healthcare.pdf .

score 2 · Answer 1 · 2011-03-09T19:38:42

Сначала я собирался предложить wget в качестве решения, но после дальнейших исследований я заметил несколько вещей:

PDF-файлы не хранятся на http://www.allitebooks.com (вместо этого они находятся на http://files.allitebooks.com).
Каталог, содержащий файлы PDF, http://file.allitebooks.com/20170102/
Оба URL-адреса файла files.allitebooks, о которых я упоминал, возвращают 403 Forbidden ошибок при подключении

Посетив одну из страниц электронных книг на сайте, вы можете увидеть URL-адрес ссылки для скачивания в формате PDF. Это можно использовать для загрузки PDF следующим образом:

wget http://file.allitebooks.com/20170102/Smart%20Home%20Automation%20with%20Linux%20and%20Raspberry%20Pi,%202%20edition.pdf

Однако это не является рекурсивным, и невозможно узнать, что находится в этом каталоге, не проверяя каждый пост в блоге и не копируя ссылки для скачивания.

Сейчас выбран русский

Сканирование сайта для файлов

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf wget web-crawler.

Сканирование сайта для файлов

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf wget web-crawler.

Похожие