2

Я замечаю, что в некоторых случаях статьи о платных новостях, похоже, индексируются Google, потому что отрывки из истории появляются в поисковой выдаче.

Тем не менее, когда я захожу на эти веб-сайты с использованием идентификатора робота-робота (Google), информация не появляется для сканирования статьи. Казалось бы, это говорит о том, что издатель каким-то образом отправляет свои статьи с платной подписью (и связанные URL-адреса) в Google, а не сканирует их. Очевидно, что такое представление было бы нетривиальным, поскольку в нем должны были бы содержаться как содержание статьи, так и различные метаданные, относящиеся к ней, такие как URL-адрес, на котором она находится, и срок ее действия.

Существует ли такой механизм? Если да, может ли обычный веб-мастер, такой как я, использовать его?

2 ответа2

2

Да, это возможно

У Google есть страница под названием « Получите ваш контент в Google», которая по состоянию на сегодня, 21 мая 2018 года, представляет собой исчерпывающую справку о том, как индексировать ваш контент в Google. Здесь вы можете попробовать различные ссылки, в том числе:

  • Добавьте свой URL
  • Приложение сканирует
  • Консоль поиска
  • Руководство по поисковой оптимизации (SEO)

Этот ответ был опубликован @acejavelin два года и месяц назад в качестве комментария. Возможно, страница, на которую мы ссылались, была не такой всеобъемлющей, как сегодня, или я не понимаю, почему он / она не опубликовал ее в качестве полного ответа. Кроме того, я вижу, что ОП считал эту страницу "слишком мета" в то время, но сегодня это именно то, что он / она хочет.

Веб-сайты могут обнаружить поддельных Googlebots

Веб-сайты иногда не позволяют сканировать их веб-содержимое веб-браузерами, которые используют фиктивные строки агента пользователя Googlebot. Вы можете найти более подробную информацию по этому вопросу на веб-сайте Panopticlick Фонда Electronic Frontier. Короче говоря, у робота Google есть и другие функции идентификации, чем просто пользовательский агент.

1

Тот факт, что веб-сервер компании возвратил печально известную ошибку HTTP 404 на URL, не означает, что ресурс не существует. Это только означает, что веб-сервер решил, что для вас этот ресурс не существует.

Веб-сервер может идентифицировать вас как платящего клиента многими способами, главным из которых является идентификационный файл cookie HTTP, хранящийся в вашем браузере. Когда файл cookie не найден, веб-сервер обычно запрашивает у вас вход в систему, а в случае успеха возвращает этот файл cookie.

Вопрос в том, почему Googlebot разрешен доступ, а вы нет?

Со временем робот Googlebot обнаружит практически любой веб-сайт, но веб-мастер может запросить скорейшее посещение с помощью инструментов, содержащихся в разделе Получить контент в Google. Он также может направить бота в определенные папки с помощью файла Robots.txt.

Пример такого файла:

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

Бот идентифицирует себя, используя в заголовке HTTP-запроса тег агента пользователя , например googlebot .

Однако предположить, что личность Googlebot не так просто. Веб-сайт может легко проверить личность бота, выполнив обратный поиск DNS на IP-адресе доступа. В этом случае возвращаемое доменное имя должно быть либо googlebot.com либо google.com , что вы сами не можете подделать.

Если вы полностью контролируете свой веб-сервер, например, через PHP, вы можете продублировать этот механизм и создать так называемый «веб-сайт членства». Такое программное обеспечение называется членским программным обеспечением.

Если вы не являетесь программистом PHP или не желаете таких вложений своего времени, существует множество альтернативных программ с открытым исходным кодом, а также множество коммерческих продуктов, которые будут конкурировать за ваш бизнес. Будьте очень критичны, если вы решите выбрать один, и тщательно проверьте его в Интернете для обзоров.

Для получения дополнительной информации просмотрите следующие ресурсы, которые я нашел с помощью поиска (не обязательно лучшие, а некоторые носят коммерческий характер, но они помогут вам начать работу):

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .