Составляем список "лишних" роботов которые грузят сервер, их описание и способы бана

jabbaxatt · 9 Май 2015

Рылся я сегодня в логах, на предмет роботов которые грузят сервер и при этом мне не особо нужных. И решил создать сию тему.

Известно, что по мимо роботов яндекса и гугла (а также бинга, яхо, рамблера и мейла) есть ещё куча роботов всяких SEO сервисов, маленьких поисковых систем, ручных поделок и т.д.

В итоге на сервере постоянно пасётся стадо терминаторов, и не все ведут себя вежливо в плане пожирания ресурсов.

В общем для начала я в самом низу robots.txt всех своих сайтов впишу

User-agent: MJ12bot
Disallow: /
user-agent: AhrefsBot
disallow: /
User-agent: dotbot
Disallow: /
User-agent: InterfaxScanBot
Disallow: /
User-agent: SputnikBot
Disallow: /
User-agent: SolomonoBot
Disallow: /

Это список тех что меня подзапарили. А Вас приглашаю - пополнить этот список и так-же озвучить рекомендации, скинуть информацию на тему - кто из роботов чей и для чего.

Банить роботов ведь можно и через .htaccess по юзер агенту и там же - но по IP

Я пока цивилизованно - через robots.txt - но прошу ваших советов и мнений. Кто как делает?

latteo · 9 Май 2015

Перед добавлением в robots.txt посмотрите в логах, а есть ли запросы файла robots от этих User-agent

Из перечисленных вами как минимум AhrefsBot не спрашивал разрешения в роботс. SolomonoBot и InterfaxScanBot не смог обнаружить в логах.

Остальные спрашивали. Но тут всплывает вопрос, а поняли ли?
После запрета в файлике надо проверить логи на скан с этими UA.

По хорошему, запретить бы по регулярке в htaccess/nginx.conf всё, что не в белом списке, ибо сервисов этих вагон и они прибывают. Сделать регулярку для основных ПС легко. Но вот только кто возьмётся составить такую регулярку для бестиария обычных UA

_sergey_ · 9 Май 2015

Не проще, давать доступ только тем ботам каким нужно, а прочих банить?

Вот, роботс для этого:
User-agent: Yandex
Disallow:
Crawl-delay: 5
Host: site.ru

User-agent: Googlebot
Disallow:
Crawl-delay: 7
Sitemap: site.ru/sitemap.xml

User-agent: *
Disallow: /

Если что надо запретить для первых 2-х соответственно указываете в каждом блоке отдельно. Crawl-delay - чтобы не было слишком частых обращений - если страниц много выложено, это может повесить сервер после прогона для индексации. Если нужно временно разрешить какой-то поисковик или соцсеть, добавлять её. В общем я так делал когда дорами занимался.

И ещё напомню про свой пост в моём блоге: Для просмотра ссылки Войди или Зарегистрируйся

Denixxx · 9 Май 2015

Я при таких случаях парсю логи и выстраиваю список наиболее частых посетителей.
Написал простенький скрипт Для просмотра ссылки Войди или Зарегистрируйся
Работает так — Для просмотра ссылки Войди или Зарегистрируйся
Как правило, идёт много запросов с одного IP
Пробиваешь по WHOIS и если это не поисковик какой нибудь — банишь навсегда в .htaccess

jabbaxatt · 9 Май 2015

_sergey_ написал(а):
Не проще, давать доступ только тем ботам каким нужно, а прочих банить?

Мы точно таким способом не зарежем какой-нить яндекс или гугл бот, типа быстро-робота, индексатора иконок или картинок и т.д. ?

Nei · 9 Май 2015

jabbaxatt написал(а):
Мы точно таким способом не зарежем какой-нить яндекс или гугл бот, типа быстро-робота, индексатора иконок или картинок и т.д. ?

ИМХО именно так по идее клоакинг и работает (по айпи определяются поисковые боты и им отдаётся отличный контент от того, который отдаётся реальным посетителям).
Одна проблема - клоакинг, насколько я знаю, поисковиками палится. Отсюда вывод - айпи их ботов бывают разные.

_sergey_ · 10 Май 2015

jabbaxatt написал(а):
Мы точно таким способом не зарежем какой-нить яндекс или гугл бот, типа быстро-робота, индексатора иконок или картинок и т.д. ?

Нет. Тут разрешены все вспомогательные боты яндекса и гугла. Вот по яндексу к примеру: Для просмотра ссылки Войди или Зарегистрируйся

Более того, хостинг где я тогда хостился сам размещал подобный роботс при добавлении очередного домена, и проблем не было никогда.

По скриптам, вот есть такой вариант: Для просмотра ссылки Войди или Зарегистрируйся давно его не пробовал уже, раньше нормальный был.

Nei написал(а):
ИМХО именно так по идее клоакинг и работает (по айпи определяются поисковые боты и им отдаётся отличный контент от того, который отдаётся реальным посетителям).
Одна проблема - клоакинг, насколько я знаю, поисковиками палится. Отсюда вывод - айпи их ботов бывают разные.

IP конечно используются различные для проверок против клоакинга + юзерагент мозилла и т.п. Но есть и системы которые отслеживают все новые IP позволяя их эффективно фильтровать, другое дело что это недёшево стоит и используется только теми кому это жизненно важно.

Denixxx · 15 Май 2015

jabbaxatt написал(а):
Мы точно таким способом не зарежем какой-нить яндекс или гугл бот, типа быстро-робота, индексатора иконок или картинок и т.д. ?

Ну вот для этого я и написал

Denixxx написал(а):
Как правило, идёт много запросов с одного IP
Пробиваешь по WHOIS и если это не поисковик какой нибудь — банишь навсегда в .htaccess

Именно вручную проверяешь, когда обычная конфигурация и настройки apache+nginx не справляются.
Такие случаи редки — DDOS не чаще раз в месяц обычно, поэтому ручками, ручками

audit-saitov001 · 9 Сен 2015

SISTRIX Crawler можно забанить. Говорят - как только "наползет" - то нагрузит так, что мама не горюй.
Вообще советую проверять логи регуляркой Crawler|spider|bot - смотреть, какие боты по сайту ходят.
Ненужных банить, чтобы не грузили и траф не жгли.

Банить лучше не по ip, а по юзер агенту - ip запросто может меняться, а юзер агент - очень редко.

Я разбираюсь с ботами так:
Составляю список "хороших" и "плохих" ботов, далее баню "плохих", а новых отлавливаю так:
Беру логи, випиливаю из них регуляркой запросы ботов, которые у меня в белом/черном списке, далее ищу оставшееся регуляркой Crawler|spider|bot , смотрю, что осталось и что с этим делать - кого в белый список, кого в черный.
Регулярка для удаления известных ботов такая: ^.*compatible; Baiduspider.*$|^.*Baiduspider-image.*$|^.*compatible; HaosouSpider.*$|^.*compatible; MJ12bot.*$|^.*.................
Автоматическим скриптам не доверяю - есть риск забанить нужный поисковик/сео-анализатор, etc....

awmz · 11 Сен 2015

jabbaxatt написал(а):
Мы точно таким способом не зарежем какой-нить яндекс или гугл бот, типа быстро-робота, индексатора иконок или картинок и т.д. ?

Нет, директивы в robots.txt носят рекомендательный характер, и могут быть проигнорированы роботами.

Nei написал(а):
ИМХО именно так по идее клоакинг и работает

Клоакинг будет когда для робота будет отдаваться другое содержимое. А здесь просто указание не смотреть на содержимое, причем это указание можно спокойно проигнорить.

Составляем список "лишних" роботов которые грузят сервер, их описание и способы бана

jabbaxatt

Добрый модератор

latteo

Эффективное использование PHP, MySQL

_sergey_

Писатель

Denixxx

Мой дом здесь!

jabbaxatt

Добрый модератор

Nei

Nosce te ipsum

_sergey_

Писатель

Denixxx

Мой дом здесь!

audit-saitov001

Создатель

awmz

Создатель