1

Я хотел бы загрузить http://www.example.com/foobar и каждую HTML-страницу, на которую ссылается ссылка, где URL начинается с http://www.example.com/foobar . Я хотел бы также загрузить все ссылки, не связанные с HTML, независимо от их пути. Я старался:

httrack http://www.example.com/foobar -mime:text/html +http://www.example.com/foobar*

а также добавил:

+http://www.example.com/foobar +http://www.example.com/foobar/*

но это не привело к загрузке страниц вообще.

1 ответ1

1

Я до сих пор не знаю, как это сделать с помощью httrack (хотя мне бы очень хотелось понять, как работают фильтры httrack, но, видимо, этого не произойдет, все просто повторяют одну и ту же бесполезную страницу руководства), но я смог решить свою проблему с помощью wget хотя не так, как просили. Видите, я действительно знаю, где находятся активы, и поэтому я смог сделать это:

wget -rkpEI foobar/,assetpath1/,assetpath2/ https://www.example.com/foobar

Это сработало. Более менее. Чтобы быть справедливым, мне позже понадобилось зацикливать каждый файл и перезагружать их один за другим - опция -k wget при загрузке одного файла превращает каждую ссылку в абсолютный URL, что действительно полезно для последующей работы с sed .

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .