-1

Есть два сайта.

1) www.aa.com
2) www.bb.com

Сейчас на bb.com так много ссылок на aa.com и его веб-страницы, как

aa.com/blhahhaa.html
aa.com/beautifulday.html
aa.com

так что я хочу узнать этот список.

Так есть ли сценарии или инструменты для этого? Есть идеи, как разработать такой инструмент?

Это то, как Google сканирует все веб-сайты, но здесь я хочу сканировать только один веб-сайт.

1 ответ1

2

Если вы работаете в Linux, я бы использовал страницу чтения Bash-скрипта с wget и анализировал ее, ища ссылки, а затем сканировал эти ссылки. Используйте Google для этого, есть множество готовых скриптов.

Если бы в Windows я использовал ваш любой предпочтительный язык с расширением cURL, чтобы получить содержимое страницы вместо wget . Если вы читаете вики-страницу, это страница "Смотри также", даже если она направлена на wget . Копай на этом.

PS Ваш вопрос кажется немного ленивым.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .