Если я уменьшу скорость веб-скребка, чтобы она соответствовала скорости человека, сможет ли третье лицо отличить их? Какие еще критерии используют веб-сайты, чтобы различать пользователей и скребки?

1 ответ1

3

Есть много критериев, которые веб-сайт может использовать для определения возможных скребков. Некоторые из них более склонны к ложным срабатываниям, чем другие.

  • Пользовательский агент. Многие скребки имеют заголовок User-Agent: который легко и надежно идентифицирует их. Многие из следующих характеристик также могут быть соотнесены с User-Agent: чтобы проверить, действительно ли поведение постулированного пользовательского агента действительно соответствует ожидаемому от графического браузера, он может пытаться отображаться как.
  • Диапазоны IP. Например, бот, работающий за пределами облачного IP-адреса Google или Amazon, вероятно, автоматизирован (или выходной узел VPN).
  • Время прохождения. Тривиальный бот будет посещать внутренние ссылки сайта с фиксированной задержкой между "щелчками" или с вариацией, которая настолько мала, что не может маскироваться под реального пользователя.
  • Порядок обхода. Тривиальный бот будет посещать внутренние ссылки сайта в том порядке, в котором он их обнаруживает, в то время как пользователь будет посещать только небольшое количество ссылок в менее предсказуемом порядке.
  • Загрузка изображений. Человек, использующий графический браузер, будет демонстрировать несколько предсказуемые всплески параллельных соединений, в некоторой степени также зависящие от доступной пропускной способности и конфигурации браузера. Но многие боты будут получать только одну страницу за раз, и, возможно, полностью обходят графику.
  • Поведение JavaScript. Настоящий браузер с включенным JavaScript будет выполнять полезную нагрузку JavaScript. Некоторые чистящие боты пытаются подражать этому, но многие этого не делают, а те, которые часто делают несовершенную работу.
  • Альтернативные пути. Источник HTML может содержать ссылки в разделах, которые не будут отображаться в конкретном браузере с определенной конфигурацией; но тривиальный бот будет посещать как скрытые, так и открытые ссылки.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .