Поисковые боты убивают сервак

Статус
В этой теме нельзя размещать новые ответы.
Я ненужным ботам вообще закрыл доступ. В htaccess добавил:
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} liveinternet [OR]
RewriteCond %{HTTP_USER_AGENT} WebAlta [OR]
RewriteCond %{HTTP_USER_AGENT} Yanga [OR]
RewriteCond %{HTTP_USER_AGENT} Twiceler [OR]
RewriteCond %{HTTP_USER_AGENT} Flexum [OR]
RewriteCond %{HTTP_USER_AGENT} Aport [OR]
RewriteCond %{HTTP_USER_AGENT} Slurp [OR]
RewriteCond %{HTTP_USER_AGENT} msnbot [OR]
RewriteCond %{HTTP_USER_AGENT} ia_archiver [OR]
RewriteCond %{HTTP_USER_AGENT} libwww-perl
RewriteRule ^(.*)$ - [F,L]
 
User-agent: *
Request-rate: 1/10 # загружать не более одной страницы за десять секунд
Visit-time: 0600-0845 # загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.

Можно ли такое сделать с помощью htaccess, а не robots.txt, а то есть тупые роботы и спамботы всякие?
 
У меня тоже юывает по 3.000 - 5.000 тыс и хостинг жуть как тормозит
 
эти параметры не на всех ботов действуют, вот например гугл бот сообщает об этих правилах:

Crawl-delay: 7 Правило, которое не учитывается Googlebot
Request-rate: 1/7 Синтаксис не распознается
Visit-time: 0000-0500 Синтаксис не распознается

сообственно все было сделано по шаблону и синтаксис правильный, у него просто нет поддержки таких команд
 
Такая же проблема.
Это cuill подонский поисковик
погуглите cuil убивает сайты

В четверг было нашествие ботов.
Cuill открывает до 500 портов и стоит в time_wait
и еще есть один безыменный зверь.
Код:
TCP    web:http               94.127.144.35:12698    CLOSE_WAIT
TCP    web:http               94.127.144.35:12902    TIME_WAIT
TCP    web:http               94.127.144.35:13041    CLOSE_WAIT
То что это бот - узнал позвонив владельцам ip
netstat показывает для обоих поисковиков целые простыни подключений.
А второй бот это новые васьки, сказали что это их поисковый бот.
Какой то ТелеХаус новый поисковик новый делает.

Извинились, сказали что извиняются за бота, типа разошелся.

Оба бота Cuil и этот русский открывают слишком много портов, видимо пытаются открыть все ссылки на сайте разом, а если еще и на нескольких сайтах одновременно то серверу пипец.
Чуть чуть помогает снизить time_wait в TCP в реестре до 30
и потимизация скриптов.
В интернете пишут, что cuill пытается рандомить урлы и особая жопа кто юзает mode_rewrite.
роботс txt Crawl-delay оба бота игнорируют.
проще забанить ip

Я думаю, что эти новоявленные разработчики, что ренегады ушедшие из гугла (cuil), что наши Телехаусовцы хреново знают TCP. И оба нахрапом хотят просканить весь интернет.

Забанил ip полегчало.

Добавлено через 11 минут
Я ненужным ботам вообще закрыл доступ. В htaccess добавил:
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} liveinternet [OR]
RewriteCond %{HTTP_USER_AGENT} WebAlta [OR]
RewriteCond %{HTTP_USER_AGENT} Yanga [OR]
RewriteCond %{HTTP_USER_AGENT} Twiceler [OR]
RewriteCond %{HTTP_USER_AGENT} Flexum [OR]
RewriteCond %{HTTP_USER_AGENT} Aport [OR]
RewriteCond %{HTTP_USER_AGENT} Slurp [OR]
RewriteCond %{HTTP_USER_AGENT} msnbot [OR]
RewriteCond %{HTTP_USER_AGENT} ia_archiver [OR]
RewriteCond %{HTTP_USER_AGENT} libwww-perl
RewriteRule ^(.*)$ - [F,L]

Есть одно "НО" cuill (user_agent twiceler) насрал на все баны и роботс тхт он продолжает флудить по портам.
 
Можно вобще как то запретить индексацию сайта cuill-ом?
 
.htaccess

Проблема такая, что прибегает куча поисковых ботов в один момент и кладет сервер :mad:, как можно с этим бороться? прописывать в robots не индексировать форум не подходит как вариант...
Проблема реальная. Я даже пришёл к выврду что сайты которые начинают быть популярными специально заказывают таким "специалистам". каждые 2-5 сек идёт робот. соотв. любой сервак рано или поздно нагнётся. Сам с такой сталкивался. Даже некоторые левые боты не соблюдают правила delay in robots.txt
Я например блокирую такие боты в .htaccess
таким образом
SetEnvIf User-Agent "htdig" ban
SetEnvIf User-Agent ^htdig$ ban
SetEnvIf User-Agent .*DotBot.* ban
.....
SetEnvIf User-Agent .*MJ12bot.* ban
SetEnvIf User-Agent .*KaloogaBot.* ban
<Files ~ "^.*$">
order allow,deny
#deny from all
allow from all
deny from env=ban
</Files>
Всё доступ через апач им будет закрыт и соотв. нагружать сервак не смогут.
Проблема в другом если дальше идти - этих новых "левых" ботов постоянно увеличивается и нужно постоянно отслеживать.
 
Проблема реальная. Я даже пришёл к выврду что сайты которые начинают быть популярными специально заказывают таким "специалистам". каждые 2-5 сек идёт робот. соотв. любой сервак рано или поздно нагнётся. Сам с такой сталкивался. Даже некоторые левые боты не соблюдают правила delay in robots.txt
Я например блокирую такие боты в .htaccess
таким образом
SetEnvIf User-Agent "htdig" ban
SetEnvIf User-Agent ^htdig$ ban
SetEnvIf User-Agent .*DotBot.* ban
.....
SetEnvIf User-Agent .*MJ12bot.* ban
SetEnvIf User-Agent .*KaloogaBot.* ban
<Files ~ "^.*$">
order allow,deny
#deny from all
allow from all
deny from env=ban
</Files>
Всё доступ через апач им будет закрыт и соотв. нагружать сервак не смогут.
Проблема в другом если дальше идти - этих новых "левых" ботов постоянно увеличивается и нужно постоянно отслеживать.
ПРЕДЛОЖЕНИЕ
давайте тут публиковать сипсок ботов и если есть ip адреса

я смотрю не только у меня проблема перегрузки сервака ботами.
Особенно новоявленные боты типа cuill хотят засосать весь интернет с полпинка. Cuill заявил, что он будет лучше Гугла. Видимо, уволенный гений из Гугла рвет себе попу, лишь бы его индекс догнал гугловский
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху