Ограничение файлов с помощью wget

Question

Я пытаюсь загрузить архивы списков рассылки, такие как

В частности, у меня есть страница, и я хотел бы загрузить каждый файл, связанный с этой страницей, который заканчивается на «.txt.gz». Есть ли способ ограничить wget, чтобы сделать это? В противном случае альтернативный подход?

Рекомендации

http://www.gnu.org/software/wget/manual/html_node/

score 3 · Accepted Answer · 2011-03-09T19:38:42

Попробуй это:

wget \
    --recursive \
    --no-directories \
    --no-parent \
    --level 1 \
    --accept .txt.gz \
    --execute robots=off \
    http://lists.cryolist.org/pipermail/cryolist-cryolist.org/

Использование длинных опций для удобочитаемости.

score 3 · Answer 2 · 2011-03-09T19:38:42

Из wget --help:

-r,  --recursive          specify recursive download.
-l,  --level=NUMBER       maximum recursion depth (inf or 0 for infinite).
-A,  --accept=LIST        comma-separated list of accepted extensions.

Помня, что файлы связаны с iFrame lists.cryolist.org/pipermail/cryolist-cryolist.org, следующая команда даст желаемые результаты:

wget -r -l1 -A "txt.gz" lists.cryolist.org/pipermail/cryolist-cryolist.org

Выключатели

-r позволяет загружать другие ресурсы, связанные с.
-l1 ограничивает это до одного уровня, т. Е. Если page1 ссылается на page2 а page2 ссылается на unwanted.txt.gz , этот файл не будет загружен.

score 0 · Answer 3 · 2011-03-09T19:38:42

Напишите сценарий bash, сохраняйте все месяцы в массиве, зацикливая их, вставляя их в команду wget в правильной позиции

Сейчас выбран русский

Ограничение файлов с помощью wget

Рекомендации

3 ответа3

Выключатели

Всё ещё ищете ответ? Посмотрите другие вопросы с метками shell wget.

Ограничение файлов с помощью wget

Рекомендации

3 ответа3

Выключатели

Всё ещё ищете ответ? Посмотрите другие вопросы с метками shell wget.

Похожие