Вот и все, это все, что я хочу знать с этим. - Я выполнил поиск в Google, и в нем даже не упоминаются такие ситуации (сканирование сайтов с индексом Apache / модным индексом); но я знаю, что могу отправить паука на сайт и найти все, что не связано, поэтому может ли робот Google делать то же самое с такими сайтами, как мой [insurgent.info]?
1 ответ
Может ли робот Googlebot сканировать или извлекать URL /URI с сайтов Apache index /fancy index?
Да.
Я выполнил поиск в Google, и он даже не упоминает такие ситуации (сканирование сайтов с использованием Apache index/fancy index layout).
Скорее всего, потому что на самом деле нет ничего примечательного, чтобы упомянуть. знак равно
Неспособность проанализировать некоторые или все страницы обычно возникает только при использовании JavaScript, поскольку, за исключением Google, большинство веб-сканеров не выполняют код JavaScript. Apache возвращает индексы (даже модные версии) в виде простых HTML-страниц (без JavaScript).
Вероятно, будет разговор об оптимизации поисковой системы с сайтами, имеющими только индекс, но, вероятно, об этом. Тем не менее, поиск « firefox ftp » возвращает https://ftp.mozilla.org/pub/firefox/releases/ в качестве первого результата.
Я знаю, что я могу отправить паука на сайт и найти все виды вещей, которые не связаны ...
Все, к чему обычно обращается паук (или к тому, что у вас есть), связано как URL/URI где-то в коде для разбираемых страниц (даже если это не видно "обычным" посетителям).
Единственными исключениями из этого могут быть:
Ссылки, для доступа к которым требуется JavaScript (например, при ленивой загрузке), что иногда могут делать более продвинутые боты, по крайней мере, в сочетании с безголовыми браузерами.
Ссылки, основанные на угадывании URL (чаще всего используются вредоносными скриптами / инструментами и т.д.).
Ссылки, ошибочно созданные из-за какой-либо ошибки конфигурации сервера или уязвимости безопасности, приводящей к файлам вне корневого веб-каталога.
... так может ли робот Google делать то же самое с такими сайтами, как мой?
Что касается индексных / необычных индексных страниц Apache, робот Googlebot может индексировать все, что могут получить обычные (или даже опытные) посетители.