Недавно я наткнулся на этот сайт, который утверждает, что глубокая сеть - это огромный раздел всемирной паутины, который не доступен через обычные запросы через Yahoo, Google или различные другие поисковые системы.

По данным сайта:

  • Общая публичная информация в глубокой сети на самом деле в 4-5 тысяч раз больше, чем в целом в Интернете.
  • Глубокий Интернет состоит из 6500 терабайт информации по сравнению с 20 терабайтами информации, доступной в наземной сети.
  • Глубокий Интернет состоит из 550 миллиардов уникальных записей и документов, в отличие от 1 миллиарда из поверхностного Интернета.
  • 60 крупнейших глубинных веб-сайтов состоят из 750 терабайт данных, что само по себе достаточно для того, чтобы в 40 раз превзойти по размеру общедоступную сеть.
  • Общее качество контента из глубокой сети в 1000-2000 раз лучше, чем у поверхностной сети.

Являются ли вышеуказанные утверждения правдой? Особенно последний. Если да, есть ли способ поиска контента в Deep Web с помощью поисковой системы, такой как Google, или каким-либо другим способом?

3 ответа3

6

Большая часть контента недоступна для поиска по той простой причине, что она создается динамически по запросу или за ограниченным доступом по множеству способов (стены оплаты и т.д.). Это первоначальное значение фразы « Глубокая паутина ».

По самому определению "глубокая паутина" недоступна для поиска. Это термин для описания коллекции материалов, которые явно не доступны для поиска.

Это не так, как некоторым организациям нравится использовать этот термин, какая-то "крутая" часть интернета, где "обычные люди" не допускаются. Я признаю, что "глубокая паутина" звучит круто так же, как "черная дыра", но на практике это не имеет никакого значения.

Например, я запускаю персональный веб-сервер. Некоторые его части по-разному ограничены реальными знакомыми. Имеет ли для вас смысл иметь к нему доступ? Подсказка: Нет.

Заявления, которые вы цитируете, например

  • Общее качество контента из глубокой сети в 1000-2000 раз лучше, чем у поверхностной сети.

это просто глупость, правда.

0

Почти все эти пункты - чистый маркетинг, и я не верю им, но за ними может быть небольшая правда. Вероятно, что происходит, это две вещи:

  1. Поисковая система может не соответствовать robots.txt (сокращенная версия - это файл, который сообщает поисковым системам, что не следует включать страницу, которая есть на вашем сайте, в результаты поиска). Таким образом, поскольку он включает в себя все веб-страницы (не только те, на которые ему было разрешено смотреть), он будет иметь больше результатов поиска.

  2. Он ищет Tor для скрытых сервисов и перечисляет их в результатах поиска. Эти сайты имеют .onion в конце своего доменного имени, и вы должны использовать прокси-сервер tor для доступа к ним.

Между этими двумя методами, я думаю, я вижу, откуда они берут свои цифры, но я не вижу, как это « в 1000-2000 раз лучше, чем в поверхностной паутине ».

0

Насколько я понимаю, «глубокая сеть» относится к той части сети, которую нелегко проиндексировать автоматически; например, многие страницы динамически генерируются на лету в ответ на запрос или заполненную форму. Или, некоторые сайты требуют входа пользователя, прежде чем весь контент будет доступен. Сайты такого типа, как правило, не прозрачны для автоматических поисковых роботов, и поэтому единственная часть сайта, которая в конечном итоге индексируется, это «поверхностная» часть.

Фактические цифры, конечно, трудно доказать; статья Википедии ссылается на это исследование, в котором предполагается, что его размер составляет около 91 000 ТБ.

Недавно Google объявил, что они работают над улучшением способа «чтения» веб-страниц их поисковыми роботами, что подразумевает, что они пытаются индексировать больше этого труднодоступного контента. Engadget имеет рецензию на это здесь.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .