Как вы используете wget для загрузки всего сайта (домен A), когда его ресурсы находятся в другом домене (домен B)?
Я пробовал:wget -r --level=inf -p -k -E --domains=domainA,domainB http://www.domainA
3 ответа
wget --recursive --level=inf --page-requisites --convert-links --html-extension \
--span-hosts=domainA,domainB url-on-domainA
ОБНОВЛЕНИЕ: я помню, что команда выше работала для меня в прошлом (это был 2010 год, и я тогда использовал GNU Tools для Windows ); однако я должен был изменить это на следующее, когда я хотел использовать это сегодня:
wget --recursive --level=inf --page-requisites --convert-links \
--adjust-extension --span-hosts --domains=domainA,domainB domainA
Сокращением для этого будет: wget -rEDpkH -l inf domainA,domainB domainA
-r= ---recursive-l <depth>=--level=<depth>-E=--adjust-extension-p= ---page-requisites-K=--backup-converted-k=--convert-links-D <domain-list>=--domain-list=<domain-list>-H=--span-hosts-np= --no--no-parent-U <agent-string>-агента > =--user-agent=<agent-string>
Руководство по GNU Wget: https://www.gnu.org/software/wget/manual/wget.html
wget --recursive --level = inf - реквизиты страницы --convert-links --html-расширение -rH -DdomainA, domainB domainA
wget --page-requisites --convert-links --adjust-extension --span-hosts --domains domainA,domainB domainA
Возможно, вам придется игнорировать файл robots.txt (обратите внимание, что это может быть нарушением некоторых условий обслуживания, и вам следует загрузить необходимый минимум). См. Https://www.gnu.org/software/wget/manual/wget.html#Robot-Exclusion .
