2

Вы получите следующий вывод:

curl https://www.ibm.com/robots.txt

Я удаляю много строк, оставляя только часть.

User-agent: *
Disallow: //
Disallow: /account/registration
Disallow: /account/mypro
Disallow: /account/myint

# Added to block site mirroring
User-agent: HTTrack
Disallow: /
#

Я понимаю, что / означает корневую директорию, но что означает директория с двойной косой чертой // здесь в robots.txt?

1 ответ1

1

Это похоже на ошибку:

Disallow: //

Дело в том, что robots.txt как указано здесь, четко гласит:

Также обратите внимание, что глобализация и регулярные выражения не поддерживаются ни в строках User-agent, ни в Disallow. '*' В поле User-agent является специальным значением, означающим "любой робот". В частности, вы не можете иметь такие строки, как «User-agent: bot », «Disallow: /tmp /*» или «Disallow: * .gif».

Но некоторые люди утверждают, что это не тот случай , как этот сайт, который утверждает, что Google может обрабатывать сопоставление с шаблоном:

Сопоставление с образцом . В настоящее время сопоставление с образцом может использоваться тремя основными категориями: Google, Yahoo и Live Search. Значение сопоставления с образцом является значительным. Давайте сначала рассмотрим самый простой способ сопоставления с образцом, используя подстановочный знак звездочка.

Но независимо от этого, // означает буквальный каталог каталога без имени, прикрепленного к этому каталогу, поскольку там нет подстановочных знаков (*) или чего-либо еще. И // просто кажется странным.

Я думаю, что это какая-то ошибка. Да, веб-мастер IBM может ошибаться! Но я бы также предположил, что robots.txt автоматически генерируется некоторой системой, и каким-то образом путь, такой как /*/ был преобразован в // когда robots.txt был автоматически сгенерирован системой.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .