Мой веб-сайт очищается архивом. Сегодня. Этот сайт похож на авторитетный archive.org, но archive.today не подчиняется robots.txt, подделывает универсальный пользовательский агент и пытается скрыть его IP-адреса. Затем сайт приступает к регургитации вашего контента и индексации его в поисковых системах.

1 ответ1

0

Вы можете заблокировать сканер, заблокировав следующие диапазоны IP-адресов:

78.46.174.128/27 & 108.61.0.0/16 & 5.101.96.0/21

Как только вы их заблокируете, попытка проиндексировать страницу с помощью archive.today должна привести к бесконечному циклу на их сайте.

Вы можете сделать это в iptables как:

sudo iptables -A INPUT -s 78.46.174.128/27 -j DROP
sudo iptables -A INPUT -s 108.61.0.0/16 -j DROP
sudo iptables -A INPUT -s 5.101.96.0/21 -j DROP

И я думаю, что у Apache и ngix есть способ сделать что-то подобное.

Архив. Сегодня победил:

Если вы этого не видите, возможно, у них есть новые IP-адреса.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .