Я хотел бы сохранить эту веб-страницу и все страницы, на которые она ссылается. и надеемся, что между сохраненными веб-страницами будет такая же связь.
Есть ли какие-то способы вместо открытия и сохранения каждой связанной страницы?
Я хотел бы сохранить эту веб-страницу и все страницы, на которые она ссылается. и надеемся, что между сохраненными веб-страницами будет такая же связь.
Есть ли какие-то способы вместо открытия и сохранения каждой связанной страницы?
Вы можете делать то, что хотите, с помощью утилиты командной строки wget . Если вы укажете опцию -r
, она будет рекурсивно загружать веб-страницы. Например:
wget -r http://mat.gsia.cmu.edu/orclass/integer/integer.html
Это загрузит эту веб-страницу и все, на что она ссылается. Вы также можете сделать так, чтобы он проходил только определенное количество уровней, для этого вы просто -r
число. Вроде такой:
wget -r 5 http://mat.gsia.cmu.edu/orclass/integer/integer.html
Эта тема старая, но другие могут посмотреть на нее. Спасибо, Вуфферс, за то, что указали мне правильное направление, но в продолжение ответа Вуфферса: современная версия wget имеет ряд полезных опций для повторяющихся ссылок и их исправления как локальных относительных ссылок, так что вы можете перемещаться по локальной копии. веб-сайта. Используйте параметр -r для рекурсии, параметр -k для исправления локальных ссылок, параметр -H для перехода в домены, отличные от исходного, параметр -D для ограничения областей, в которые вы переходите, параметр -l для ограничения глубина рекурсии и опция -p, чтобы убедиться, что листья вашего обхода имеют все необходимое для правильного отображения. Например, следующая программа загрузит страницу и все, на что она сразу ссылается, что делает ее доступной для локального просмотра, опция -p гарантирует, что если ссылки на страницы содержат изображения, они также загружаются:
wget -r -l 1 -p -k -H -D domain.com,relateddomain.com http://domain.com/page/in/domain
Используя команду, аналогичную приведенной выше, я смог загрузить кусок вики-страницы с внешними ссылками на свой локальный диск без загрузки мегабайт посторонних данных. Теперь, когда я открываю корневую страницу в своем браузере, я могу перемещаться по дереву без подключения к Интернету. Единственным раздражителем было то, что корневая страница была похоронена в подкаталогах, и мне пришлось создать страницу перенаправления верхнего уровня, чтобы ее было удобно отображать. Может потребоваться некоторое количество проб и ошибок, чтобы понять это правильно. Прочитайте справочную страницу wget и поэкспериментируйте.
Вы можете использовать сканер веб-сайтов, такой как httrack, который является бесплатным.
С веб-сайта;
[httrack] позволяет вам загружать сайт World Wide Web из Интернета в локальный каталог, рекурсивно создавать все каталоги, получать HTML, изображения и другие файлы с сервера на ваш компьютер. HTTrack организует относительную структуру ссылок исходного сайта. Просто откройте страницу "зеркального" веб-сайта в своем браузере, и вы сможете просматривать сайт по ссылке, как если бы вы просматривали его в Интернете.