Я использую эту команду:

wget -nd -e robots=off --wait 0.25 -r -A.pdf http://yourWebsite.net/

но я не могу получить PDF с сайта.

Например, у меня есть имя корневого домена:

www.example.com

и на этом сайте есть PDF, DOC, HTML и т. д. Я хочу загрузить все PDF-файлы, вставив только имя корневого домена, а не точный адрес страницы загрузки.

1 ответ1

0

Применение предоставленной команды к примерному веб-сайту, отработанному на моем компьютере с Ubuntu 12.04 с использованием wget версии 1.13.4:

$ wget -nd -e robots=off --wait 0.25 -r -A.pdf http://www.cvpapers.com

Однако до загрузки первого файла PDF требуется некоторое время, так как на сайте есть много html-файлов, которые необходимо пропустить.

Отключение опции --wait 0.25 ускоряет процесс, но, очевидно, увеличивает рабочую нагрузку на стороне сервера.

Если команда не работает для вашего веб-сайта, это может быть проблема / макет конкретного веб-сайта / ... во избежание успешной загрузки.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .