1

При использовании wget с включенной рекурсивной опцией я получаю сообщение об ошибке при попытке загрузить файл. Он считает, что ссылка является загружаемым файлом, когда на самом деле он должен просто следовать по нему, чтобы перейти на страницу, которая на самом деле содержит файлы (или несколько ссылок для перехода), которые я хочу.

wget -r -l 16 --accept=jpg website.com

Сообщение об ошибке: .... так как оно должно быть отклонено. Обычно это происходит, когда ссылка на сайт, который он пытается получить, заканчивается оператором sql. Проблема, однако, не возникает при использовании той же команды wget по этой ссылке. Я хочу знать, как именно он пытается получить страницы. Я думаю, что я всегда мог осмотреть источник, хотя я не знаю, насколько грязный проект. Мне также может не хватать именно того, что означает "рекурсивный" в контексте wget. Я думал, что он будет проходить и перемещаться по каждой ссылке, получая файлы с расширением, которое я запросил.

Я разместил это в stackOverFlow, но они перевернули меня сюда :) Надеюсь, вы, ребята, можете помочь.

РЕДАКТИРОВАТЬ: вывод сообщения об ошибке

2010-04-13 16:54:47 (128 KB/s) - `somewebsite.com/index.php?id=917218' saved [10789]

Removing somewebsite.com/index.php?id=917218 since it should be rejected.

Я скорее не раскрываю источник сайта :)

2 ответа2

2

Как отметил Хью Аллен, использование только --accept=jpg заставит wget загружать только файлы с расширением .jpg (и .htm, .html, которые всегда выбираются). Вот почему wget сообщает, что удалит файл php. Поэтому попробуйте использовать --accept=jpg,php или аналогичный.

Смотрите руководство wget для деталей. Я рекомендую вам прочитать его, так как он объясняет весь механизм принятия / отклонения очень подробно.

1

Может быть, --accept=jpg означает отклонить все остальное.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .