Я пытаюсь рекурсивно извлечь все возможные URL-адреса (URL-адреса внутренних страниц) с веб-сайта.
Можете ли вы помочь мне с Wget? или есть лучшая альтернатива для достижения этой цели? Я не хочу загружать какой-либо контент с веб-сайта, а просто хочу получить URL того же домена.
Спасибо!
РЕДАКТИРОВАТЬ
Я попытался сделать это в wget, и позже запустил файл outlog.txt. Не уверен, если это правильный способ сделать это. Но это работает!
$ wget -R.jpg,.jpeg,.gif,.png,.css -c -r http://www.example.com/ -o urllog.txt
$ grep -e " http" urllog1.txt | awk '{print $3}'