-1

Я заметил, что платные сайты, такие как New York Times, появляются в поиске Google, но если вы попытаетесь щелкнуть ссылку, вы попадете в платный доступ. Кроме того, я заметил, что Google НЕ имеет кеш платных сайтов. Например, вот некоторые результаты поиска:

Итак, здесь вы можете видеть, что последние две ссылки имеют маленькие зеленые треугольники, ведущие к кешированному содержимому, но ссылки NYT выше НЕ имеют зеленого треугольника. Является ли это результатом какого-то грязного соглашения о том, что Нью-Йорк Таймс должен предоставить Google секретный доступ к контенту в обмен на продвижение своего платного контента? Очевидно, что Google имеет доступ к платным страницам с момента их индексации. Почему они не дают доступ к своему кешу страницы?

1 ответ1

3

Как платные сайты получают свои страницы в Google?

Во-первых, googlebot индексирует всю сеть. Они хотят проиндексировать все сайты, включая платные. Мой совершенно незначительный персональный сайт постоянно индексируется Google.

Google может индексировать только то, что позволяет им видеть веб-сайт, они не делают попыток обойти систему безопасности или получить доступ к файлам, которые им не предоставляются.

Если веб-сайт передает Google PayWall, он индексирует это и останавливается на этом, потому что это все, что доступно. Существуют различные HTML-теги, позволяющие предположить, следует ли что-то кэшировать или нет. Google, вероятно, уважает их.

https://stackoverflow.com/questions/1341089/using-meta-tags-to-turn-off-caching-in-all-browsers

<meta http-equiv="cache-control" content="max-age=0" />
<meta http-equiv="cache-control" content="no-cache" />
<meta http-equiv="expires" content="0" />
<meta http-equiv="expires" content="Tue, 01 Jan 1980 1:00:00 GMT" />
<meta http-equiv="pragma" content="no-cache" />

Каждый бот, включая Google, скачивает с каждого веб-сайта robots.txt для получения дальнейших инструкций о том, что делать.

Давайте посмотрим на nwtimes: robots.txt

User-agent: *
Allow: /ads/public/
Allow: /svc/news/v3/all/pshb.rss
Disallow: /ads/
Disallow: /adx/bin/
Disallow: /archives/
Disallow: /auth/
Disallow: /cnet/
Disallow: /college/
Disallow: /external/
Disallow: /financialtimes/
Disallow: /idg/
Disallow: /indexes/
Disallow: /library/
Disallow: /nytimes-partners/
Disallow: /packages/flash/multimedia/TEMPLATES/
Disallow: /pages/college/
Disallow: /paidcontent/
Disallow: /partners/
Disallow: /reuters/
Disallow: /register
Disallow: /thestreet/
Disallow: /svc
Disallow: /video/embedded/*
Disallow: /web-services/
Disallow: /gst/travel/travsearch*

Sitemap: http://spiderbites.nytimes.com/sitemaps/www.nytimes.com/sitemap.xml.gz
Sitemap: http://www.nytimes.com/sitemaps/sitemap_news/sitemap.xml.gz
Sitemap: http://spiderbites.nytimes.com/sitemaps/sitemap_video/sitemap.xml.gz
Sitemap: http://spiderbites.nytimes.com/sitemaps/www.nytimes.com_realestate/sitemap.xml.gz
Sitemap: http://spiderbites.nytimes.com/sitemaps/www.nytimes.com/2016_election_sitemap.xml.gz

Теперь давайте посмотрим на tnooz: robots.txt

User-agent: msnbot
User-agent: AhrefsBot
User-agent: bingbot
User-agent: YandexBot
Crawl-delay: 10

Ни одного ограничения не найти в их файле.

У qz.com есть только пара ограничений:

   # If you are regularly crawling WordPress.com sites, please use our firehose to receive real-time push updates instead.
# Please see https://developer.wordpress.com/docs/firehose/ for more details.

Sitemap: https://qz.com/news-sitemap.xml

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
# Sitemap archive
Sitemap: https://qz.com/sitemap.xml

Disallow: /wp-login.php
Disallow: /activate/ # har har
Disallow: /cgi-bin/ # MT refugees
Disallow: /mshots/v1/
Disallow: /next/
Disallow: /public.api/

User-agent: IRLbot
Crawl-delay: 3600

Некоторые сайты предлагают googlebots типовые / частичные статьи, и Google кэширует предлагаемые им части.

Источник (ниже) https://yoast.com/ultimate-guide-robots-txt/

If you want to reliably block a page from showing up in the search results, you need to use a meta robots noindex tag. That means the search engine has to be able to index that page and find the noindex tag, so the page should not be blocked by robots.txt.

https://support.google.com/webmasters/answer/66356?hl=en&visit_id=1-636280385333935278-3996937908&rd=1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .