Есть пара соответствующих флагов:
-A acclist --accept acclist
(разделенный запятыми шаблон стиля глобуса для имен файлов)
-I list
--include-directories=list
(разделенный запятыми шаблон стиля глобуса для каталогов)
--accept-regex urlregex
(принимает регулярное выражение для полного URL)
Обычно вы также передаете -r
для рекурсии, и -l inf
противном случае максимальная глубина рекурсии равна 5. Если вы хотите иметь возможность начать и остановить загрузку, -nc
"no clobber" избегает повторной загрузки существующих файлов. Для этого также полезно -E (--adjust-extension)
, которое добавляет расширение .html
к HTML-страницам, в которых его нет; когда расширение присутствует и -nc
, wget
все равно будет читать URL-адреса из копии файла на диске.
Вот пример загрузки пословного перевода Корана:
wget -E -nc -l inf -nd -r --no-parent 'http://corpus.quran.com/wordbyword.jsp?chapter=1&verse=1' -A '*wordbyword*'
Он начинается с первого стиха, и поскольку каждая страница ссылается на следующие стихи, он в конечном итоге загружает их все. Опция -A
ограничивает нас только интересующими нас страницами.
Я думаю, что нужно больше примеров, поэтому, пожалуйста, не стесняйтесь их предлагать, и я постараюсь обновить это.