Возможный дубликат:
Как я могу скачать весь сайт

Я часто сталкиваюсь с веб-страницами, которые предлагают справочные страницы или другую информацию, доступную только через оглавление, состоящее из ссылок на отдельные главы или абзацы. Зачастую отдельные листовые страницы состоят из нескольких строк, поэтому обход всего дерева чрезвычайно громоздок.

То, что я ищу, - это инструмент, который позволил бы мне извлекать и объединять все страницы, на которые ссылаются ссылки начальной страницы, в один объединенный HTML-документ, так что можно, например, сохранить эту страницу и / или линейно прокрутить все дочерние страницы. без необходимости нажимать и возвращаться 1000 раз. Это также позволило бы распечатать всю коллекцию, чтобы иметь руководство или поиск по ней за один раз, и т.д.

Кто-нибудь знает хороший инструмент для достижения этого? В идеале такой инструмент должен предлагать некоторые критерии исключения (например, игнорировать все "обратные" ссылки или ссылку на справку или домашние страницы, которые находятся на каждой странице и т.д.).

2 ответа2

1

Вы можете использовать wget в режиме зеркала:

C:\MySites\> wget -m http://mymanuals.com/manuals/foobar

Будет отражать весь сайт http://mymanuals.com/manuals/foobar .

Другая вещь, которую я использовал с довольно хорошим успехом, - это HTTrack, который снова отражает веб-сайт для вас, но с хорошим интерфейсом GUI.

0

wget чтобы получить все страницы. Вы можете использовать xhtml2pdf и pdftk для создания одного документа.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .