Я хотел бы получить копию определенного руководства, которое распространяется на большое количество веб-страниц, таких как этот большой документ. Я не хочу заказывать печатную копию и не хочу нажимать на каждую ссылку, чтобы получить весь документ. Какой самый простой способ поместить копию этого руководства на мой жесткий диск?
2 ответа
Это может быть ответ (я бы попробовал, только если предложение Дария о wget
не работает).... Это также действительно зависит от того, как вам повезло!
Вы можете использовать что-то вроде http://www.httrack.com/, которое сохранит весь сайт на вашем жестком диске.
Страницы PDF, о которых вы говорите, являются предсказуемыми, поскольку все они находятся в каталоге http://www.state.gov/documents/organization/ , поэтому после сохранения сайта удалите все, кроме organization/
каталога.
Проблема в том, что нет никаких обещаний, что в этом каталоге будут жить только те страницы, которые вы хотите (например, этот каталог может содержать все PDF-файлы сайта, а не только те, которые вы хотите). В зависимости от ваших потребностей, этого может быть или не быть достаточно.
Правильный набор опций принесет разумный результат за разумное время. Чтобы прийти к этому, было несколько испытаний.
wget --recursive --page-requisites --convert-links --timestamping
--domains=www.state.gov --level=2 --accept htm,pdf
--include /m/a/dir/regs/fam,/documents
Это не может быть общим решением, потому что выбор --accept определенных типов файлов зависит от веб-сайта. Выбор - включить определенные деревья специфичен для сайта. Также выбор --level специфичен.
(@Darius может опубликовать ответ вместо комментария, в этом случае я бы рассмотрел его выбор.)