Я хотел бы получить копию определенного руководства, которое распространяется на большое количество веб-страниц, таких как этот большой документ. Я не хочу заказывать печатную копию и не хочу нажимать на каждую ссылку, чтобы получить весь документ. Какой самый простой способ поместить копию этого руководства на мой жесткий диск?

2 ответа2

0

Это может быть ответ (я бы попробовал, только если предложение Дария о wget не работает).... Это также действительно зависит от того, как вам повезло!

Вы можете использовать что-то вроде http://www.httrack.com/, которое сохранит весь сайт на вашем жестком диске.

Страницы PDF, о которых вы говорите, являются предсказуемыми, поскольку все они находятся в каталоге http://www.state.gov/documents/organization/ , поэтому после сохранения сайта удалите все, кроме organization/ каталога.

Проблема в том, что нет никаких обещаний, что в этом каталоге будут жить только те страницы, которые вы хотите (например, этот каталог может содержать все PDF-файлы сайта, а не только те, которые вы хотите). В зависимости от ваших потребностей, этого может быть или не быть достаточно.

0

Правильный набор опций принесет разумный результат за разумное время. Чтобы прийти к этому, было несколько испытаний.

wget --recursive --page-requisites --convert-links --timestamping 
--domains=www.state.gov --level=2 --accept htm,pdf 
--include /m/a/dir/regs/fam,/documents

Это не может быть общим решением, потому что выбор --accept определенных типов файлов зависит от веб-сайта. Выбор - включить определенные деревья специфичен для сайта. Также выбор --level специфичен.

(@Darius может опубликовать ответ вместо комментария, в этом случае я бы рассмотрел его выбор.)

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .