Ниже приведено упрощение, но оно довольно близко:
Поскольку в Интернете так много страниц, невозможно даже сохранить их все на одном сервере. Чтобы обойти это, у Google есть много тысяч сканеров, которые сканируют Интернет и сохраняют свои результаты на серверах. Это означает, что страницы, возвращаемые по вашему запросу, разбросаны по тысячам серверов, и что (если несколько сканеров попадают на одну и ту же страницу) одна и та же страница будет на многих серверах.
Когда вы делаете запрос, Google запрашивает у своих серверов, сколько страниц у них совпадают. Но поскольку серверов так много, у него нет времени, чтобы посмотреть точные результаты каждого из них. Таким образом, он получает результаты первой десятки и заставляет их просто отослать число, сколько у них есть.
Это означает, что если сервер № 1 имеет страницу A, а сервер № 10 также имеет страницу A, Google сообщает об этом как два результата. Или, если 10000 серверов имеют страницу A, Google сообщает, что это 10000 результатов! Эти "поддельные" результаты уходят , когда вы нажимаете , чтобы увидеть больше результатов, потому что , когда он представляет десять подробных результатов к вам, Google действительно убедитесь , что нет никаких дубликатов.
Надеюсь, что это объяснение имеет смысл.
Я не уверен, что понимаю ваш второй вопрос. По умолчанию Google "дедуплицирует" ссылки, поэтому он не должен показывать одну и ту же ссылку дважды в одном и том же результате.