Мое понимание: когда веб-браузер делает запрос на просмотр страницы, сервер отвечает обратно HTML. Затем веб-браузер отображает этот HTML-код, он отправляет запросы на каждый встроенный объект (например, изображения), которые он видит в HTML, на сервер менее чем за секунду (дать или взять). Тем не менее, используя Web Scrapper, я делаю запрос к серверу, собирающему только HTML и не отображающему HTML вообще.

Правильный этикет для веб-проверки говорит, что вы должны ограничивать количество запросов не более одной в секунду, чтобы не перегружать сервер.

Итак, почему не проблема, когда веб-браузер отправляет запрос для каждого встроенного объекта (несколько запросов в течение секунды), а веб-скребок отправляет несколько запросов в секунду, просто для источника HTML для разных страниц?

1 ответ1

1

Причины, по которым веб-скребки (а не скребки) используют задержку:

  • чтобы скрыть, что они очищают сеть и быть заблокированными на сайтах, которые они пытаются очистить (используя небольшие задержки между страницами, они больше похожи на веб-браузер, управляемый человеком, который просматривает сеть)
  • из вежливости по отношению к владельцу веб-сайта (запрос большого количества данных за очень короткий промежуток времени может привести к перегрузке сервера и, как следствие, к тому, что сайт не будет отвечать другим пользователям сайта)

Когда ваш браузер (или веб-скребок) запрашивает страницу, ему не нужно ждать целую секунду между запросами объектов на той же странице. Он может запросить их немедленно - это приводит к улучшению взаимодействия с пользователем (более быстрая загрузка страниц).

Чего не хочет делать «обычный» пользователь, так это запрашивать разные страницы в течение очень короткого периода времени. Пользователь будет просматривать страницу, нажимать на ссылку, чтобы перейти на следующую страницу и т.д.
Поэтому, когда пользователь просматривает сайт, будет задержка между запросом разных страниц с одного и того же сайта. Скорее всего, это задержка в 1 секунду, которую вы упомянули в своем вопросе.

Очевидно, что для быстрой очистки сайта веб-скребки захотят использовать максимально возможную задержку. Они будут использовать различные способы для ускорения процесса (например, очистить несколько сайтов параллельно; сделать так, чтобы запросы поступали от нескольких разных пользователей).
Для веб-скребков всегда будет компромисс между причинами задержки и необходимостью выполнить работу.

Для получения дополнительной информации см. Запись в Википедии

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .