Каков наилучший способ просмотреть домен (полу) верхнего уровня и все его подпапки на наличие определенных комбинаций цифр и букв.

У меня есть несколько папок с большими списками изображений, и мне нужно только получить те, в которых есть определенные номера. То есть: 282 или 191

бонусные баллы, если вы можете сказать мне, как отфильтровать минимальный размер, чтобы я не загружал эскизы вместе с фотографиями с более высоким разрешением.

1 ответ1

0

Это будет сканировать сайт в поисках gif, png, jpg, jpeg, а затем получить эти результаты для любых строк. Полученный список затем извлекается в указанный каталог с помощью wget. Вам необходимо настроить '/path/to/save/files', а также URL-адрес, чтобы получить файлы из.

Настройте окончательный оператор grep, чтобы определить параметры поиска. Это было бы:

grep "191\|282" --instead of-- grep "taco.gif\|whatever"

Примечание. Если вы добавляете или удаляете какие-либо типы файлов, измените параметры флага -A и последний grep соответственно.

wget -P /path/to/save/files/ $(wget --spider --execute robots=off \
--user-agent="Mozilla/5.0 Firefox4.0.1" --no-clobber --random-wait --force-html \
--recursive --no-directories -A gif,png,jpg,jpeg http://taco.com 2>&1 | grep -e \
'http\|Length\|broken link' | awk -F' ' '{ print $3 }' | sed '$!N;s/\n/ /' | grep \
'.gif\|.png\|.jpg\|.jpeg' | tr -d '()' | sed '/does$/d' | sort -k2 | \
grep "taco.gif\|whatever")

Примечание: это не будет работать на многих сайтах, так как большинство администраторов блокируют wget и имеют сценарии для блокировки сканеров, но на taco.com это работает нормально.

Я не пробовал, но этот плагин пакетного загрузчика может работать лучше. https://chrome.google.com/webstore/detail/fatkun-batch-download-ima/nnjjahlikiabnchcpehcpkdeckfgnohf?hl=en

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .