Wget: рекурсивно получить URL-адреса с определенного сайта

Question

Я пытаюсь рекурсивно извлечь все возможные URL-адреса (URL-адреса внутренних страниц) с веб-сайта.

Можете ли вы помочь мне с Wget? или есть лучшая альтернатива для достижения этой цели? Я не хочу загружать какой-либо контент с веб-сайта, а просто хочу получить URL того же домена.

Спасибо!

РЕДАКТИРОВАТЬ

Я попытался сделать это в wget, и позже запустил файл outlog.txt. Не уверен, если это правильный способ сделать это. Но это работает!

$ wget -R.jpg,.jpeg,.gif,.png,.css -c -r http://www.example.com/ -o urllog.txt
$ grep -e " http" urllog1.txt | awk '{print $3}'

score 1 · Answer 1 · 2011-03-09T19:38:42

Вы также можете использовать что-то вроде Nutch, я только когда-либо использовал его для сканирования внутренних ссылок на сайте и индексации их в Solr, но в соответствии с этим постом он также может делать внешние ссылки, в зависимости от того, что вы хотите сделать с результатами, которые он может быть немного излишним, хотя.

Сейчас выбран русский

Wget: рекурсивно получить URL-адреса с определенного сайта

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками web-crawler wget.

Wget: рекурсивно получить URL-адреса с определенного сайта

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками web-crawler wget.

Похожие