1

То, что я сейчас делаю, это

wget www.example.com -m --warc-file="example.com"

который отлично работает для большинства сайтов, но для этого конкретного сайта, который я сохраняю, существует более тысячи избыточных страниц, таких как www.example.com/eventsf[0]=event_calendar5, при этом сохраняется основной www .example.com/ сайт событий?

1 ответ1

1

Если вы используете относительно более новую версию Wget (выпущенную менее 6 лет назад), то вы можете использовать параметры --accept-regex или --reject-regex , чтобы использовать регулярное выражение и отклонять фильтрацию URL-адресов, которые вы используете. очень хочу скачать.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .