Обход большого каталога с помощью wget с двумя ссылками, указывающими на одно и то же

Question

Я пытаюсь сканировать каталог на веб-сайте и в основном загружать все в нем. Структура достаточно проста (но есть также несколько папок), но есть одна вещь, которая заставляет wget подавиться. Источник выглядит примерно так:

<a href="index.php?path=/blah/whatever&download=resource.txt"><img... /></a> .... <a href="/blah/whatever/resource.txt">resource.txt"</a>

Обе ссылки работают, но обе они одно и то же. Таким образом, wget загрузит один и тот же файл дважды. Как сделать так, чтобы wget игнорировал первый? Или, если у вас есть лучшее предложение для сканера, которое работает в Linux(или OpenBSD), предложите его вместо

Я попытался использовать список отклонений так:

wget -r -R index.php\*\&download\* http://url

но это, похоже, на самом деле ничего не делает. Он все равно будет загружать дубликаты URL

score 0 · Answer 1 · 2011-03-09T19:38:42

Вы можете сделать что-то вроде ... просто -R index.php *?как это звучит, как и другие ссылки будут работать нормально?

Сейчас выбран русский

Обход большого каталога с помощью wget с двумя ссылками, указывающими на одно и то же

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками linux wget web-crawler.

Обход большого каталога с помощью wget с двумя ссылками, указывающими на одно и то же

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками linux wget web-crawler.

Похожие