Как мы можем узнать, какие URL можно сканировать, поскольку robots.txt сообщает, если мы не знаем, к какой папке принадлежит URL?

Question

Я собираюсь кодировать веб-сканер, но прежде чем я захочу узнать, что будет возможно сканировать.

Скажите, если я ошибаюсь, но на веб-сайтах robots.txt указаны папки, а не URL-адреса, которые можно и нельзя сканировать, так как мы можем узнать, к какой папке принадлежит URL-адрес?

score 0 · Accepted Answer · 2011-03-09T19:38:42

Файл robots.txt исключает префиксы каталогов. Например, если у вас есть файл robots.txt исключающий каталог /foo , то /foo/bar.html не должен сканироваться.

Для любого URL, который вы хотите сканировать, вы должны проверить, совпадает ли его путь с одной из директив в файле роботов.

См. Документацию Google для получения дополнительной информации и примеров:

Значение пути используется в качестве основы для определения того, применяется ли правило к определенному URL-адресу сайта. За исключением подстановочных знаков, путь используется для соответствия началу URL-адреса (и любых допустимых URL-адресов, начинающихся с того же пути).

Обратите внимание, что URL-адреса не обязательно должны указывать фактические каталоги на сервере. /download.php?what=thestuff может быть функционально эквивалентен /download/thestuff и указывать на тот же ресурс.

Сейчас выбран русский

Как мы можем узнать, какие URL можно сканировать, поскольку robots.txt сообщает, если мы не знаем, к какой папке принадлежит URL?

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками web-crawler robots.txt.

Как мы можем узнать, какие URL можно сканировать, поскольку robots.txt сообщает, если мы не знаем, к какой папке принадлежит URL?

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками web-crawler robots.txt.

Похожие