Привет! Я хотел бы загрузить все PDF-файлы с http://www.allitebooks.com/ и использовать wget. моя команда "http://www.allitebooks.com/" -P "C:\dummydir" -c -A pdf -r
но я считаю, что пока она не может перейти по ссылкам на поддомен, как я могу это исправить он загружает, например, http://file.allitebooks.com/20170105/Internet%20of%20Things%20and%20Big%20Data%20Technologies%20for%20Next%20Generation%20Healthcare.pdf .
-1
1 ответ
2
Сначала я собирался предложить wget
в качестве решения, но после дальнейших исследований я заметил несколько вещей:
- PDF-файлы не хранятся на http://www.allitebooks.com (вместо этого они находятся на http://files.allitebooks.com).
- Каталог, содержащий файлы PDF, http://file.allitebooks.com/20170102/
- Оба URL-адреса файла files.allitebooks, о которых я упоминал, возвращают
403 Forbidden
ошибок при подключении
Посетив одну из страниц электронных книг на сайте, вы можете увидеть URL-адрес ссылки для скачивания в формате PDF. Это можно использовать для загрузки PDF следующим образом:
wget http://file.allitebooks.com/20170102/Smart%20Home%20Automation%20with%20Linux%20and%20Raspberry%20Pi,%202%20edition.pdf
Однако это не является рекурсивным, и невозможно узнать, что находится в этом каталоге, не проверяя каждый пост в блоге и не копируя ссылки для скачивания.