Мне нужно отслеживать более 1000 конкретных ссылок в течение одного месяца, чтобы увидеть, изменился ли их контент, и мне интересно, смогу ли я как-нибудь это автоматизировать. Одна идея состояла в том, чтобы просто загружать эти сайты время от времени в течение одного месяца и сравнивать исходные файлы. Если я пойду по этому пути, вы, ребята, знаете об инструменте (расширение браузера?) что сделало бы такую загрузку легкой? Я пробовал HTTrack, но он терпит неудачу после первых 100 ссылок или около того. В качестве альтернативы (бесплатно?) веб-сервис, который может контролировать набор веб-сайтов, также может работать. Я использовал https://visualping.io/ раньше, но он не предназначен для тысяч ссылок.
1 ответ
Интересно, смогу ли я как-нибудь автоматизировать это?
Вряд ли это необходимо, но да, вы можете написать несколько простых сценариев.
ребята, вы знаете инструмент ... который бы облегчил такую загрузку?
Wget, Curl, и т. д.
Вы можете поместить 1000 конкретных URL-адресов в текстовый файл, создать два каталога, перейти в первый каталог и использовать инструмент, такой как wget
с опцией -i
чтобы прочитать список URL-адресов и получить их. Через месяц повторите это во втором каталоге, используйте diff, например diff -r /directory1 /directory2
чтобы найти любые изменения.
Будьте осторожны при использовании рекурсивных опций, они могут перегружать сервер и блокировать вас или могут перегружать ваш компьютер.
Я бы попробовал сначала с небольшим набором URL (например, 2, затем 10, затем 1000).
Более дешевым вариантом может быть использование запросов HTTP HEAD и доверие к серверу, который знает, был ли изменен ресурс.
Видите запрос Wget HEAD?