Я пытаюсь сканировать каталог на веб-сайте и в основном загружать все в нем. Структура достаточно проста (но есть также несколько папок), но есть одна вещь, которая заставляет wget подавиться. Источник выглядит примерно так:
<a href="index.php?path=/blah/whatever&download=resource.txt"><img... /></a> .... <a href="/blah/whatever/resource.txt">resource.txt"</a>
Обе ссылки работают, но обе они одно и то же. Таким образом, wget загрузит один и тот же файл дважды. Как сделать так, чтобы wget игнорировал первый? Или, если у вас есть лучшее предложение для сканера, которое работает в Linux(или OpenBSD), предложите его вместо
Я попытался использовать список отклонений так:
wget -r -R index.php\*\&download\* http://url
но это, похоже, на самом деле ничего не делает. Он все равно будет загружать дубликаты URL