1

Есть ли какой-нибудь сайт, который может быть отклонен сканером? В настоящее время я использую сканер Burp Suite для сканирования сайтов.

Я хочу знать, когда и в каких случаях сканер не может получить результаты, так как я должен создать такой сайт, который должен отклонять запросы сканера.

Я запускал вышеупомянутый сканер на случайных сайтах, но не смог найти какой-либо конкретный сайт, который отклонял запросы сканера. Каким-то образом Burp Suite удалось получить все данные с сайтов.

Это возможно? Какие сайты отклоняют эти запросы сканеров?

2 ответа2

4

Вы ищете robots.txt?

Просто поместите это в файл robots.txt в вашем webroot, и сайт не будет сканироваться

User-agent: *
Disallow: /

Есть много способов настроить поведение, посетите http://www.robotstxt.org, чтобы узнать больше.

2

Nifle упоминает robots.txt . Это кооперативный механизм, позволяющий паукам WWW распознавать сайты, которые не хотят сканировать. На самом деле отказ от сканера - это немного другое, что в широком смысле делают немногие сайты WWW (поскольку существует robots.txt ).

Это выполняется сервером содержимого HTTP для сайта, "зная" IP-адреса, User-Agent: заголовки или другую информацию, связанную с известным пауком WWW, и ведет себя по-разному, когда он распознает паука, запрашивающего страницу / файл / изображение.

Есть несколько основных вариаций на эту тему:

  • Рекламные сайты, которые притворяются, что имеют реальный контент для WWW-пауков, но когда появляется реальный человек с WWW-браузером, размещают только рекламные объявления или ссылки.
  • Сайты с контентом только для подписки, которые представляют информацию, которая скрывается за ценовым барьером, для паука WWW, так что он индексируется, но не людям с браузерами WWW, если они не подписаны.
  • Сайты, которые не хотят сканироваться, и поэтому представляют пустые страницы или дают сообщения об ошибках паукам WWW.

Как уже упоминалось, есть лучшие способы сделать, по крайней мере, последние два, и такие действия на практике редки. Такое поведение ведет к гонке вооружений между WWW-индексаторами и провайдерами WWW-сайтов.

С захватывающей стороны, это не будет бороться с вашим "гусеничным отрыжкой" в любом случае. Изначально это вовсе не паук WWW, а пассивный анализатор данных, который обрабатывает трафик, генерируемый людьми с помощью WWW-браузеров, через прокси-сервер HTTP.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .