6

Я загружаю много отдельных страниц со всем статическим контентом (js, css, imgs ...) через рекурсивный wget. Выяснилось, что обслуживаемый контент, который был сжат (gzip), хранится в wget в сжатом виде. Но я хочу несжатый вид. Нелегко представить написание другого сценария, который будет рекурсивно проходить через каталоги и пытаться распаковать то, что возможно. Так есть ли способ разархивировать его?

CMD:

wget -E -H -k -K -p https://some.example

Даже --header = 'Accept-Encoding:' (указание серверу не использовать gzip) не помогло.

Спасибо за советы :)

1 ответ1

1
  1. Используйте httrack вместо wget
  2. Настройка декомпрессии прокси. Squid с каким-либо сторонним плагином должен это делать. Я более знаком с Java, поэтому я использовал LittleProxy, метод overrode getMaximumResponseBufferSizeInBytes() и все. Я писал о позже здесь.

РЕДАКТИРОВАТЬ: Wget 1.19.2 вводит декомпрессию Add gzip Content-Encoding decompression (и это работает)

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .