Я хотел бы извлечь ссылки из числовой последовательности страниц, как это:
http://example.com/page001.html
http://example.com/page002.html
http://example.com/page003.html
...
http://example.com/page329.html
На выходе мне нужен текстовый файл с URL-адресами, собранными по ссылкам на этих страницах:
http://www.test.com/index.html
http://www.google.com
http://www.superuser.com/questions
Чтобы было ясно, я не хочу загружать страницы, я просто хочу список ссылок.
Программное обеспечение Windows было бы идеей, но с Linux тоже все было бы в порядке. Все, что я могу придумать, это написать длинный пакетный скрипт с Xidel, но он не будет очень устойчивым при возникновении ошибок. Керл может скачать диапазон страниц, но тогда мне нужно как-то разобрать их.
Спасибо Enigman за то, что поставили меня на правильный путь. Я создал Perl-скрипт, который читает URL-адреса из файла и выплевывает ссылки, соответствующие строке, хранящейся в $ site:
use warnings;
use LWP;
$site = "twitter.com";
my $browser = LWP::UserAgent->new;
my @ns_headers = (
'User-Agent' => 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36',
'Accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Language' => 'en-GB,en;q=0.8',
);
open (URLLIST, 'urls.txt');
while (<URLLIST>) {
chomp;
print "# $_\n";
my $response = $browser->get($_, @ns_headers);
die "Can't get $_ -- ", $response->status_line
unless $response->is_success;
my @urls = $response->content =~ /\shref="?([^\s>"]+)/gi ;
foreach $url(@urls) {
if ($url =~ /$site/) {
print("$url\n");
}
}
}
close(URLLIST);
Для генерации списка URL я сделал небольшой пакетный скрипт:
@echo off
for /l %%i in (0, 15, 75) do @echo http://www.example.com/page_%%i.html
Скрипт Perl просто останавливается на ошибке, которую я предпочитаю. Было бы тривиально изменить его, чтобы просто продолжить. Пользовательский агент и принимаемые данные извлекаются из Chrome, потому что некоторым сайтам не нравится что-то похожее на бот. Если вы собираетесь сканировать сайты, которые вам не принадлежат, пожалуйста, уважайте robots.txt и настройте пользовательский агент.