12

Как вы используете wget для загрузки всего сайта (домен A), когда его ресурсы находятся в другом домене (домен B)?
Я пробовал:
wget -r --level=inf -p -k -E --domains=domainA,domainB http://www.domainA

3 ответа3

11
wget --recursive --level=inf --page-requisites --convert-links --html-extension \
     --span-hosts=domainA,domainB url-on-domainA

ОБНОВЛЕНИЕ: я помню, что команда выше работала для меня в прошлом (это был 2010 год, и я тогда использовал GNU Tools для Windows ); однако я должен был изменить это на следующее, когда я хотел использовать это сегодня:

wget --recursive --level=inf --page-requisites --convert-links \
     --adjust-extension --span-hosts --domains=domainA,domainB domainA

Сокращением для этого будет: wget -rEDpkH -l inf domainA,domainB domainA

  • -r = - --recursive
  • -l <depth> = --level=<depth>
  • -E = --adjust-extension
  • -p = - --page-requisites
  • -K = --backup-converted
  • -k = --convert-links
  • -D <domain-list> = --domain-list=<domain-list>
  • -H = --span-hosts
  • -np = --no --no-parent
  • -U <agent-string> -агента > = --user-agent=<agent-string>

Руководство по GNU Wget: https://www.gnu.org/software/wget/manual/wget.html

1

wget --recursive --level = inf - реквизиты страницы --convert-links --html-расширение -rH -DdomainA, domainB domainA

0
wget --page-requisites --convert-links --adjust-extension --span-hosts --domains domainA,domainB domainA

Возможно, вам придется игнорировать файл robots.txt (обратите внимание, что это может быть нарушением некоторых условий обслуживания, и вам следует загрузить необходимый минимум). См. Https://www.gnu.org/software/wget/manual/wget.html#Robot-Exclusion .

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .