1

Я хочу скачать классическую книгу «Начиная с четвертого» , которая, кажется, не печатается, но доступна здесь бесплатно. То есть я хочу использовать редактор сайта для загрузки всех html-страниц внутри подкаталога forth.com/starting-forth/ (и только там), которые связаны с индексом, а также всех изображений, используемых на этих страницах, независимо от их местоположения ,

Я пытался сделать это с помощью httrack, но это кажется довольно сложным, потому что мне пришлось бы вручную добавить все подкаталоги сайта forth.com/starting-forth/ .

Как мне поступить? Решения для Windows или Linux хороши, хотя я бы предпочел последнее.

1 ответ1

3

Вы можете использовать wget .

wget -r -np -k https://www.forth.com/starting-forth/
  • -r рекурсивный
  • -np не переходить по ссылкам на родительские каталоги
  • -k чтобы ссылки в загруженном HTML или CSS указывали на локальные файлы

(Из этого ответа)

(Изменить) Последние команды:

wget -r -np -k -p --domains forth.com,netdna-ssl.com -H https://www.forth.com/starting-forth/
  • --domains используется для установки доменов, с которых будет загружаться контент. Обычно это просто веб-сайт и CDN.
  • -H позволяет загружать контент с других хостов (тех, что вы положили в --domain).

find . -name "*.html" -type f -exec sed -i 's/\?ver=/_ver=/g' {} +

Это ищет все HTML-файлы и заменяет ссылки на ?ver с _ver потому что когда wget загружает какие-либо файлы, где URL содержит что-то вроде jquery.colorbox.js?ver=1.1.0 он должен заменить ? с _ чтобы сохранить его как файл.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .