2

У меня есть список ссылок здесь: https://docs.oracle.com/javase/tutorial/reallybigindex.html

Вот мне бы понравилось все скачанное. Кто-нибудь знает, как это пойдет?

3 ответа3

2

Вы можете скачать Wget для Windows и использовать его из cmd.exe:

wget -r -l 2 https://docs.oracle.com/javase/tutorial/reallybigindex.html

Если вам также нужны изображения и CSS-файлы для этих страниц, добавьте -p а также -k чтобы изменить ссылки в HTML, чтобы вы могли просматривать эти страницы в автономном режиме.

В этом уроке есть несколько скриншотов, которые могут помочь.

Значение -l 2 получит эту первую страницу и все страницы, на которые она ссылается. Вы можете увеличить число, чтобы получить более глубокие страницы, но я боюсь, что он пойдет по некоторым ссылкам вдали от учебников и вокруг сайта Oracle.

В качестве альтернативы вы можете попробовать VisualWget, который имеет пользовательский интерфейс!

В качестве альтернативы вы можете скачать учебники в виде электронных книг.

1

Как я могу скачать сайт и ссылки на него ссылки

У меня есть список ссылок здесь: https://docs.oracle.com/javase/tutorial/reallybigindex.html

Вместо того, чтобы загружать все ссылки в "Действительно большом индексе", проще просто загрузить последнюю версию пакета Java Tutorials.

Он доступен в различных форматах - zip, epub и mobi.

tutorial.zip включает в себя reallybigindex.html и все указанные файлы.

Вот содержимое верхнего уровня расширенного zip-файла:

1

Есть много способов приблизиться к этому. Не зная желаемого конечного продукта, я не могу быть очень конкретным.

  • wget, как предложено @joeytwiddle
  • завиток (похож на wget)
  • листы гугл
  • надстройки браузера для Chrome или Firefox (поисковый скребок)

Я расширю на Google Sheets (я использую это для простых одноразовых проектов):

  • создать новый лист
  • поместите это в ячейку a1 https://docs.oracle.com/javase/tutorial/reallybigindex.html
  • поместите это в ячейку b2 =IMPORTXML(A1, "//a[@href]/text()") (это возвращает текст щелчка)
  • поместите это в ячейку e2 =IMPORTXML(A1, "//a[@href]/@href") (это возвращает URL)

Вторым параметром функции является выражение xpath . Вам нужно будет настроить их, чтобы получить желаемый результат. Есть много онлайн-тестеров xpath, которые помогут вам сделать это.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .