14

У меня есть веб-сайт, и я хочу загрузить все страницы / ссылки на этом веб-сайте. Я хочу сделать wget -r для этого URL. Ни одна из ссылок не выходит за пределы этого конкретного каталога, поэтому я не беспокоюсь о загрузке всего Интернета.

Оказывается, нужные мне страницы находятся за защищенным паролем разделом сайта. Хотя я мог использовать wget для ручного согласования файлов cookie, мне было бы намного проще просто "войти" из браузера и использовать какой-нибудь плагин firefox для рекурсивной загрузки всего.

Есть расширение или что-то, что позволит мне сделать это? Многие расширения фокусируются на получении медиа / изображений со страницы (хе-хе-хе), но меня интересует весь контент - HTML и все остальное.

Предложения?

Спасибо!

редактировать

DownThemAll кажется классным предложением. Может ли это сделать рекурсивную загрузку? Как, например, загрузить все ссылки на странице, а затем загрузить все ссылки, содержащиеся на каждой из этих страниц, и т.д.? Чтобы я в основном отражал все дерево каталогов по ссылкам? Вроде как -r опция wget?

3 ответа3

7

DownThemAll не выполняет рекурсивную загрузку. Он только захватывает ссылки с текущей страницы. Загружаются только HTML-страницы связанных URL-адресов. Изображения и носители на связанных страницах не загружаются.

6

SpiderZilla предназначена для этого, но немного устарела (2006).
Он основан на ксероксе веб-сайта HTTrack.
Который имеет обновленные версии для всех платформ.

Существует также еще один более старый аддон, который может позволить вам подключить сам « wget » (помимо прочего).

Тем не менее, я тоже чувствую, что DownThemAll, вероятно, хороший выбор.
Если вы знаете, что вы хотите отразить, выбор правильных ссылок не должен быть проблемой.
И вы всегда можете поставить галочку «Все».

Итак, +1, для DownThemAll, если вы хотите придерживаться браузера.
И используйте HTTrack, если вам нужен автономный инструмент (а wget не удобен).

Обновление: вы также можете посмотреть голоса HTTrack на этот вопрос о вознаграждении,
Как я могу скачать весь сайт.

3

Вы можете использовать wget -r с файлами cookie из браузера, извлеченными после авторизации.

Firefox имеет опцию "Копировать как cURL" в контекстном меню запроса страницы на вкладке "Сеть" Инструментов для веб-разработчиков, горячие клавиши Ctrl+Shift+Q (вам может потребоваться перезагрузить страницу после открытия инструментов):Скриншот

Замените флаг заголовка curl -H на wget --header , и у вас есть все необходимые заголовки, включая файлы cookie, чтобы продолжить сеанс браузера с помощью wget.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .