Как извлечь все внешние ссылки веб-страницы и сохранить их в файл?
Если у вас есть какие-либо инструменты командной строки, это было бы здорово.
Как извлечь все внешние ссылки веб-страницы и сохранить их в файл?
Если у вас есть какие-либо инструменты командной строки, это было бы здорово.
Вам понадобятся 2 инструмента, lynx и awk, попробуйте это:
$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt
Если вам нужна нумерация строк, используйте команду nl, попробуйте это:
$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt
Вот улучшение ответа Лелтона: вам вообще не нужен awk, потому что у lynx есть несколько полезных опций.
lynx -listonly -nonumbers -dump http://www.google.com.br
если ты хочешь цифры
lynx -listonly -dump http://www.google.com.br
если командная строка не является принудительной, вы можете использовать Скопировать все ссылки Firefox.
Я бы порекомендовал Beautiful Soup по методам очистки экрана.