Я хочу проанализировать определенные URL-адреса из сохраненного html- файла с помощью простой bash-скрипта / команды, чтобы я мог загрузить их через более поздние версии wget
.
То, что у меня есть, так это:
awk 'BEGIN{ RS="<a *href *= *\""} NR>2 {sub(/".*/,"");print; }' index.html >> url-list.txt
который записывает каждую ссылку внутри моего html-файла в аккуратный txt-документ.
Однако мне нужны только конкретные ссылки
- из определенного домена
- все файлы .ogg, например
все, что в итоге будет выглядеть так:
http://www.foo.com/(randomfolder)/(randombasename).ogg
или же
http://subdomain.foo.com/(randomfolder)/(anotherrandomsubfolder)/(randombasename).ogg
заранее спасибо!