6

Я пытаюсь рекурсивно извлечь все возможные URL-адреса (URL-адреса внутренних страниц) с веб-сайта.

Можете ли вы помочь мне с Wget? или есть лучшая альтернатива для достижения этой цели? Я не хочу загружать какой-либо контент с веб-сайта, а просто хочу получить URL того же домена.

Спасибо!

РЕДАКТИРОВАТЬ

Я попытался сделать это в wget, и позже запустил файл outlog.txt. Не уверен, если это правильный способ сделать это. Но это работает!

$ wget -R.jpg,.jpeg,.gif,.png,.css -c -r http://www.example.com/ -o urllog.txt
$ grep -e " http" urllog1.txt | awk '{print $3}'

1 ответ1

1

Вы также можете использовать что-то вроде Nutch, я только когда-либо использовал его для сканирования внутренних ссылок на сайте и индексации их в Solr, но в соответствии с этим постом он также может делать внешние ссылки, в зависимости от того, что вы хотите сделать с результатами, которые он может быть немного излишним, хотя.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .