Я использую компьютер с Windows 8 и, начиная с html-страницы, я хотел бы автоматически получать текстовое содержимое по каждой ссылке на этой странице, которая соответствует регулярному выражению. Затем в найденном контенте необходимо выполнить поиск другого регулярного выражения и любых совпадений, перечисленных в таблице рядом с URL-адресом, по которому было найдено совпадение.

В настоящее время я просто ищу каждый URL в отдельности, используя окно поиска браузера.

Я не вижу никакого способа сделать это с помощью инструментов, доступных в любых браузерах. Я знаю, что мог бы написать сценарий, но я думаю, что может быть приложение (или сценарий, который кто-то другой написал), которое уже делает это.

1 ответ1

0

Сегодня я чувствую себя вашим механическим турком, поэтому я написал несколько строк сценария bash.

Получить все ссылки в $ MAINPAGE:

wget $MAINPAGE -O - | sed 's%<a%\n&%g' | sed 's%.*href=["\']%["\'].*%'

Просмотрите их и найдите регулярное выражение:

for LINK in $(wget $MAINPAGE -O - | sed 's%<a%\n&%g' | sed 's%.*href=["\']%["\'].*%'); do
  # abort grepping after first match and return the
  # count (number of matches, which is then 0 or 1),
  # if count > 0 then print the LINK url.
  if [ $(wget $LINK -O - | grep -c -m 1 -e 'I_AM_A_REGEX') -gt 0 ]; then
    echo $LINK
  fi
done

PS: не проверено!

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .