Как платные сайты получают свои страницы в Google?
Во-первых, googlebot индексирует всю сеть. Они хотят проиндексировать все сайты, включая платные. Мой совершенно незначительный персональный сайт постоянно индексируется Google.
Google может индексировать только то, что позволяет им видеть веб-сайт, они не делают попыток обойти систему безопасности или получить доступ к файлам, которые им не предоставляются.
Если веб-сайт передает Google PayWall, он индексирует это и останавливается на этом, потому что это все, что доступно. Существуют различные HTML-теги, позволяющие предположить, следует ли что-то кэшировать или нет. Google, вероятно, уважает их.
https://stackoverflow.com/questions/1341089/using-meta-tags-to-turn-off-caching-in-all-browsers
<meta http-equiv="cache-control" content="max-age=0" />
<meta http-equiv="cache-control" content="no-cache" />
<meta http-equiv="expires" content="0" />
<meta http-equiv="expires" content="Tue, 01 Jan 1980 1:00:00 GMT" />
<meta http-equiv="pragma" content="no-cache" />
Каждый бот, включая Google, скачивает с каждого веб-сайта robots.txt для получения дальнейших инструкций о том, что делать.
Давайте посмотрим на nwtimes: robots.txt
User-agent: *
Allow: /ads/public/
Allow: /svc/news/v3/all/pshb.rss
Disallow: /ads/
Disallow: /adx/bin/
Disallow: /archives/
Disallow: /auth/
Disallow: /cnet/
Disallow: /college/
Disallow: /external/
Disallow: /financialtimes/
Disallow: /idg/
Disallow: /indexes/
Disallow: /library/
Disallow: /nytimes-partners/
Disallow: /packages/flash/multimedia/TEMPLATES/
Disallow: /pages/college/
Disallow: /paidcontent/
Disallow: /partners/
Disallow: /reuters/
Disallow: /register
Disallow: /thestreet/
Disallow: /svc
Disallow: /video/embedded/*
Disallow: /web-services/
Disallow: /gst/travel/travsearch*
Sitemap: http://spiderbites.nytimes.com/sitemaps/www.nytimes.com/sitemap.xml.gz
Sitemap: http://www.nytimes.com/sitemaps/sitemap_news/sitemap.xml.gz
Sitemap: http://spiderbites.nytimes.com/sitemaps/sitemap_video/sitemap.xml.gz
Sitemap: http://spiderbites.nytimes.com/sitemaps/www.nytimes.com_realestate/sitemap.xml.gz
Sitemap: http://spiderbites.nytimes.com/sitemaps/www.nytimes.com/2016_election_sitemap.xml.gz
Теперь давайте посмотрим на tnooz: robots.txt
User-agent: msnbot
User-agent: AhrefsBot
User-agent: bingbot
User-agent: YandexBot
Crawl-delay: 10
Ни одного ограничения не найти в их файле.
У qz.com есть только пара ограничений:
# If you are regularly crawling WordPress.com sites, please use our firehose to receive real-time push updates instead.
# Please see https://developer.wordpress.com/docs/firehose/ for more details.
Sitemap: https://qz.com/news-sitemap.xml
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
# Sitemap archive
Sitemap: https://qz.com/sitemap.xml
Disallow: /wp-login.php
Disallow: /activate/ # har har
Disallow: /cgi-bin/ # MT refugees
Disallow: /mshots/v1/
Disallow: /next/
Disallow: /public.api/
User-agent: IRLbot
Crawl-delay: 3600
Некоторые сайты предлагают googlebots типовые / частичные статьи, и Google кэширует предлагаемые им части.
Источник (ниже) https://yoast.com/ultimate-guide-robots-txt/
If you want to reliably block a page from showing up in the search results, you need to use a meta robots noindex tag. That means the search engine has to be able to index that page and find the noindex tag, so the page should not be blocked by robots.txt.
https://support.google.com/webmasters/answer/66356?hl=en&visit_id=1-636280385333935278-3996937908&rd=1