Как я могу "найти" все ссылки из исходного кода веб-страницы?

Question

Я хочу иметь только https-Link в отдельном файле. Как это сделать, не получив полную строку кода, только ссылки?

score 1 · Answer 1 · 2011-03-09T19:38:42

Прежде всего, не пытайтесь анализировать HTML с помощью регулярных выражений ...

XPath может получить то, что вы хотите - он был разработан специально для этого:

//a/@href

Затем, чтобы использовать XPath с xmllint (будут существовать другие утилиты):

xmllint --shell --html file.html <<<'cat //a/@href'

Это даст вам кучу вещей, включая подсказки (/ >), имя атрибута (href="...") и разделители (-------) ... так что отфильтруйте их, сортируйте, и получите список уникальных URL:

xmllint --shell --html file.html <<<'cat //a/@href' \
    | sed '/^ href="/!d;s/^ href="//;s/"$//' \
    | sort \
    | uniq

Все без grep .

Здесь мы используем sed для:

/^ href="/!d - удалить все строки, которые не соответствуют регулярному выражению ^ href="
s/^ href="// - убрать префикс
s/"$// - убрать суффикс

В качестве альтернативы вы можете использовать CSS-селекторы вместо XPath с tq (проект Python):

tq 'a' -a href < file.html

Примечание: после обсуждения вокруг grep я предположил Unix ... Если у вас есть Cygwin или WSL, то это, вероятно, будет работать там же.

xmllint (утилита из libxml2) имеет версию для Windows.

Сейчас выбран русский

Как я могу "найти" все ссылки из исходного кода веб-страницы?

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками batch script grep findstr.

Как я могу "найти" все ссылки из исходного кода веб-страницы?

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками batch script grep findstr.

Похожие