2

Время от времени я нахожу в Интернете некоторую документацию, которая мне нужна для автономного использования на ноутбуке. Обычно я запускаю wget и получаю весь сайт.

Однако многие проекты теперь переходят на вики, и это означает, что я также загружаю каждую версию и каждую ссылку "отредактируй меня".

Есть ли какой-либо инструмент или какая-либо конфигурация в wget, чтобы я, например, загружал только файлы без строки запроса или с определенным регулярным выражением?

Ура,

Кстати, в wget есть очень полезный ключ -k, который преобразует любые ссылки внутри сайта в своих локальных аналогов. Это было бы еще одно требование. Пример: загрузка страниц http://example.com. Затем все ссылки на "/..." или " http://example.com/..." должны быть преобразованы в соответствии с загруженным аналогом.

2 ответа2

1

Со страницы руководства wget:

-R rejlist --reject rejlist

Укажите разделенные запятыми списки суффиксов или шаблонов имен файлов для принятия или отклонения. Обратите внимание, что если какой-либо из подстановочных знаков *,?, [Или] появится в элементе acclist или rejlist, он будет рассматриваться как шаблон, а не как суффикс.

Кажется, это именно то, что вам нужно.

Примечание: чтобы уменьшить нагрузку на вики-сервер, вы можете посмотреть флаги -w и --random-wait.

0

Большинство из них недовольны этим, и Википедия активно закрывает их с помощью robots.txt. Я хотел бы придерживаться http://en.wikipedia.org/wiki/Special:Export

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .