Как вы используете wget для загрузки всего сайта (домен A), когда его ресурсы находятся в другом домене (домен B)?
Я пробовал:wget -r --level=inf -p -k -E --domains=domainA,domainB http://www.domainA
3 ответа
wget --recursive --level=inf --page-requisites --convert-links --html-extension \
--span-hosts=domainA,domainB url-on-domainA
ОБНОВЛЕНИЕ: я помню, что команда выше работала для меня в прошлом (это был 2010 год, и я тогда использовал GNU Tools для Windows ); однако я должен был изменить это на следующее, когда я хотел использовать это сегодня:
wget --recursive --level=inf --page-requisites --convert-links \
--adjust-extension --span-hosts --domains=domainA,domainB domainA
Сокращением для этого будет: wget -rEDpkH -l inf domainA,domainB domainA
-r
= ---recursive
-l <depth>
=--level=<depth>
-E
=--adjust-extension
-p
= ---page-requisites
-K
=--backup-converted
-k
=--convert-links
-D <domain-list>
=--domain-list=<domain-list>
-H
=--span-hosts
-np
= --no--no-parent
-U <agent-string>
-агента > =--user-agent=<agent-string>
Руководство по GNU Wget: https://www.gnu.org/software/wget/manual/wget.html
wget --recursive --level = inf - реквизиты страницы --convert-links --html-расширение -rH -DdomainA, domainB domainA
wget --page-requisites --convert-links --adjust-extension --span-hosts --domains domainA,domainB domainA
Возможно, вам придется игнорировать файл robots.txt (обратите внимание, что это может быть нарушением некоторых условий обслуживания, и вам следует загрузить необходимый минимум). См. Https://www.gnu.org/software/wget/manual/wget.html#Robot-Exclusion .