3

Мне нужна документация по XUL, но у меня нет доступа к Интернету в большинстве случаев. Итак, я попытался скачать Учебник Mozilla с помощью следующей команды:

wget --no-parent -r -l 2 -p -k https://developer.mozilla.org/en/XUL_Tutorial

Мое намерение состояло в том, чтобы загрузить и страницу https://developer.mozilla.org/en/XUL_Tutorial и ее подстраницы (например, https://developer.mozilla.org/en/XUL_Tutorial/Install_Scripts). Однако, несмотря на то, что я прошел флаг --no-parent , он продолжает получать такие страницы, как https://developer.mozilla.org/index.php?title=Special:Userlogin&returntotitle=en%2FXUL+Tutorial%2FInstall+Scripts .

Я не понимаю, почему это происходит. Как я мог добиться того поведения, которое я намеревался?

3 ответа3

7

Вам нужен завершающий слеш в конце URL.

1

Мне пришлось отключить сжатие GZIP, чтобы заставить его работать. Я также изменил пользовательский агент, потому что некоторые страницы запрещают wget. Вот что я положил в свой .wgetrc:

заголовок = Accept-Encoding: нет

user_agent = Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.8.1.6) Gecko/20070725 Firefox/2.0.0.6

Здесь прекрасно работает.

1

Была похожая проблема:

wget -r -l1 --no-parent -nH "https://www.website.com/parent/directory/"

Я считаю, что была проблема с https против http . Я обновил $HOME/.wgetrc до:

header = Accept-Encoding: none
header = Accept-Language: en-us,en;q=0.5
header = Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
header = Connection: keep-alive
user_agent = Mozilla/5.0 (Windows NT 5.1; rv:10.0.2) Gecko/20100101 Firefox/10.0.2
referer = http://www.google.com/
robots = off

Затем изменил изменил https на http:

wget -r -l1 --no-parent -nH "http://www.website.com/parent/directory/"

Программа wget больше не создает папки (или извлекаемые файлы) за пределами указанной иерархии каталогов.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .