Мой веб-сайт очищается архивом. Сегодня. Этот сайт похож на авторитетный archive.org, но archive.today не подчиняется robots.txt, подделывает универсальный пользовательский агент и пытается скрыть его IP-адреса. Затем сайт приступает к регургитации вашего контента и индексации его в поисковых системах.
1 ответ
0
Вы можете заблокировать сканер, заблокировав следующие диапазоны IP-адресов:
78.46.174.128/27 & 108.61.0.0/16 & 5.101.96.0/21
Как только вы их заблокируете, попытка проиндексировать страницу с помощью archive.today должна привести к бесконечному циклу на их сайте.
Вы можете сделать это в iptables как:
sudo iptables -A INPUT -s 78.46.174.128/27 -j DROP
sudo iptables -A INPUT -s 108.61.0.0/16 -j DROP
sudo iptables -A INPUT -s 5.101.96.0/21 -j DROP
И я думаю, что у Apache и ngix есть способ сделать что-то подобное.
Архив. Сегодня победил:
Если вы этого не видите, возможно, у них есть новые IP-адреса.