1

Мне нужно отслеживать более 1000 конкретных ссылок в течение одного месяца, чтобы увидеть, изменился ли их контент, и мне интересно, смогу ли я как-нибудь это автоматизировать. Одна идея состояла в том, чтобы просто загружать эти сайты время от времени в течение одного месяца и сравнивать исходные файлы. Если я пойду по этому пути, вы, ребята, знаете об инструменте (расширение браузера?) что сделало бы такую загрузку легкой? Я пробовал HTTrack, но он терпит неудачу после первых 100 ссылок или около того. В качестве альтернативы (бесплатно?) веб-сервис, который может контролировать набор веб-сайтов, также может работать. Я использовал https://visualping.io/ раньше, но он не предназначен для тысяч ссылок.

1 ответ1

1

Интересно, смогу ли я как-нибудь автоматизировать это?

Вряд ли это необходимо, но да, вы можете написать несколько простых сценариев.

ребята, вы знаете инструмент ... который бы облегчил такую загрузку?

Wget, Curl, и т. д.

Вы можете поместить 1000 конкретных URL-адресов в текстовый файл, создать два каталога, перейти в первый каталог и использовать инструмент, такой как wget с опцией -i чтобы прочитать список URL-адресов и получить их. Через месяц повторите это во втором каталоге, используйте diff, например diff -r /directory1 /directory2 чтобы найти любые изменения.


Будьте осторожны при использовании рекурсивных опций, они могут перегружать сервер и блокировать вас или могут перегружать ваш компьютер.

Я бы попробовал сначала с небольшим набором URL (например, 2, затем 10, затем 1000).


Более дешевым вариантом может быть использование запросов HTTP HEAD и доверие к серверу, который знает, был ли изменен ресурс.

Видите запрос Wget HEAD?

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .