13

Я хотел бы сохранить эту веб-страницу и все страницы, на которые она ссылается. и надеемся, что между сохраненными веб-страницами будет такая же связь.

Есть ли какие-то способы вместо открытия и сохранения каждой связанной страницы?

3 ответа3

11

Вы можете делать то, что хотите, с помощью утилиты командной строки wget . Если вы укажете опцию -r , она будет рекурсивно загружать веб-страницы. Например:

wget -r http://mat.gsia.cmu.edu/orclass/integer/integer.html

Это загрузит эту веб-страницу и все, на что она ссылается. Вы также можете сделать так, чтобы он проходил только определенное количество уровней, для этого вы просто -r число. Вроде такой:

wget -r 5 http://mat.gsia.cmu.edu/orclass/integer/integer.html
7

Эта тема старая, но другие могут посмотреть на нее. Спасибо, Вуфферс, за то, что указали мне правильное направление, но в продолжение ответа Вуфферса: современная версия wget имеет ряд полезных опций для повторяющихся ссылок и их исправления как локальных относительных ссылок, так что вы можете перемещаться по локальной копии. веб-сайта. Используйте параметр -r для рекурсии, параметр -k для исправления локальных ссылок, параметр -H для перехода в домены, отличные от исходного, параметр -D для ограничения областей, в которые вы переходите, параметр -l для ограничения глубина рекурсии и опция -p, чтобы убедиться, что листья вашего обхода имеют все необходимое для правильного отображения. Например, следующая программа загрузит страницу и все, на что она сразу ссылается, что делает ее доступной для локального просмотра, опция -p гарантирует, что если ссылки на страницы содержат изображения, они также загружаются:

wget -r -l 1 -p -k -H -D domain.com,relateddomain.com http://domain.com/page/in/domain

Используя команду, аналогичную приведенной выше, я смог загрузить кусок вики-страницы с внешними ссылками на свой локальный диск без загрузки мегабайт посторонних данных. Теперь, когда я открываю корневую страницу в своем браузере, я могу перемещаться по дереву без подключения к Интернету. Единственным раздражителем было то, что корневая страница была похоронена в подкаталогах, и мне пришлось создать страницу перенаправления верхнего уровня, чтобы ее было удобно отображать. Может потребоваться некоторое количество проб и ошибок, чтобы понять это правильно. Прочитайте справочную страницу wget и поэкспериментируйте.

4

Вы можете использовать сканер веб-сайтов, такой как httrack, который является бесплатным.

С веб-сайта;

[httrack] позволяет вам загружать сайт World Wide Web из Интернета в локальный каталог, рекурсивно создавать все каталоги, получать HTML, изображения и другие файлы с сервера на ваш компьютер. HTTrack организует относительную структуру ссылок исходного сайта. Просто откройте страницу "зеркального" веб-сайта в своем браузере, и вы сможете просматривать сайт по ссылке, как если бы вы просматривали его в Интернете.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .