3

Интересно, есть ли программное обеспечение, которое я могу использовать, чтобы обнаружить все файлы и подкаталоги по URL?

Например, учитывая www.some-website.com/some-directory/ , я хотел бы найти все файлы в /some-directory/ directory, а также все подкаталоги (и их файлы) в /some-directory/ ,

Это было бы для протокола HTTP.

3 ответа3

2

В системах типа CMS нет каталогов и подкаталогов, только маршруты, которые соответствуют информационным узлам / идентификаторам, которые назначены запрашиваемой информации. Эти маршруты создаются динамически в зависимости от метода категоризации, используемого для доступа к этой информации (новейшие публикации, категории, теги, списки брендов и любой другой метод категоризации представления, который владелец сайта может использовать, чтобы помочь вам найти конечный узел).

Поэтому информация, которую вы ищете, может быть представлена несколькими вариантами в зависимости от маршрута, используемого для доступа к конечному узлу (виртуальная страница).

Чтобы сделать владельца сайта счастливым, не перегружая его сервер, сделайте как Google и найдите файл sitemap.xml. Если владелец сайта следует передовой практике, это будет полный список канонических веб-страниц, доступных на веб-сайте, что означает, что вам нужно получить доступ к конечной виртуальной странице только один раз, а не загружать несколько копий одной и той же вещи.

1

Это зависит от того, как настроен сервер на сайте, который вы хотите сканировать. URL-адрес не всегда пропорционален физическому каталогу, в котором находятся файлы.

Обычно, если индексный файл не создан в каталоге сервера, сервер вернет содержимое каталога. Если индексный файл создан, почти невозможно получить содержимое каталога напрямую.

Однако вы можете использовать сканер сайтов, такой как Internet Download Manager, чтобы сканировать веб-сайт по его ссылкам, которые представлены в HTML-контенте сайта. IDM извлекает все файлы HTML/images/multimedia content/txt/PDF на веб-сайте для вас.

Обязательно ознакомьтесь с Условиями предоставления услуг перед сканированием.

0

wget делает это, если вы используете * nix. Это бесплатно и с открытым исходным кодом. Вы, вероятно, можете получить его и для Windows, хотя я не уверен.

Конечно, ограничения такие же, как указано выше. Большинство веб-сайтов в настоящее время не имеют URL-адресов, которые отображаются непосредственно на структуру каталогов, но вы можете эффективно зеркалировать весь сайт с помощью wget. То есть вы можете загрузить все места на сайте, которые являются общедоступными и имеют гиперссылки со страницы, на которую вы можете перейти.

Многие сайты будут блокировать вас, если они обнаружат неавторизованный сканер, слишком быстро отражающий их сайт. Так что вам может потребоваться быть вежливым - программа сканирования должна выполнять только несколько страниц в секунду.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .