Nifle
упоминает robots.txt
. Это кооперативный механизм, позволяющий паукам WWW распознавать сайты, которые не хотят сканировать. На самом деле отказ от сканера - это немного другое, что в широком смысле делают немногие сайты WWW (поскольку существует robots.txt
).
Это выполняется сервером содержимого HTTP для сайта, "зная" IP-адреса, User-Agent:
заголовки или другую информацию, связанную с известным пауком WWW, и ведет себя по-разному, когда он распознает паука, запрашивающего страницу / файл / изображение.
Есть несколько основных вариаций на эту тему:
- Рекламные сайты, которые притворяются, что имеют реальный контент для WWW-пауков, но когда появляется реальный человек с WWW-браузером, размещают только рекламные объявления или ссылки.
- Сайты с контентом только для подписки, которые представляют информацию, которая скрывается за ценовым барьером, для паука WWW, так что он индексируется, но не людям с браузерами WWW, если они не подписаны.
- Сайты, которые не хотят сканироваться, и поэтому представляют пустые страницы или дают сообщения об ошибках паукам WWW.
Как уже упоминалось, есть лучшие способы сделать, по крайней мере, последние два, и такие действия на практике редки. Такое поведение ведет к гонке вооружений между WWW-индексаторами и провайдерами WWW-сайтов.
С захватывающей стороны, это не будет бороться с вашим "гусеничным отрыжкой" в любом случае. Изначально это вовсе не паук WWW, а пассивный анализатор данных, который обрабатывает трафик, генерируемый людьми с помощью WWW-браузеров, через прокси-сервер HTTP.