Я скачал и сохранил страницу index.htm и (в зависимости от некоторых критериев этой страницы) хочу использовать wget для извлечения всех изображений, javascripts, css-файлов и т.д., Которые браузер будет загружать при отображении страницы.

В настоящее время я использую:

wget --server-response --timeout=120 --base="http://www.example.com/" --force-html --input-file="index.htm"

Пока это работает, но также получает все ссылки, определенные как href = "/somesubpage.htm". Как я могу избежать загрузки href...?

1 ответ1

1

Так как wget не знает, как выполнить javascript, у вас есть только 2 решения:

  • Сделайте запрос на странице с вашим браузером и посмотрите логи веб-сервера. Затем используйте wget для каждого элемента веб-страницы.
  • Используйте фантомы. ,

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .