Как определить ботов?

Статус
В этой теме нельзя размещать новые ответы.

root230101

Местный житель
Регистрация
19 Сен 2007
Сообщения
301
Реакции
22
По юзерагенту всех не определишь, может с помошью JS можно? Боты вроде его не исполняют... Или исполняют?
В статсе liveinternet ботов нет...
 
Боты как правило выкачивают сайт с большой скоростью - несколько страничек в секунду-две, поэтому прикручиваем к Апачу модуль mod_evasive, затем наблюдаем месяц и выставляем правильные настройки таймаутов и ипишники белых поисковых ботов.
 
Действительно, не все боты светятся в рефах, видимо подменяют юзерагент, типа ссылки палят или клоакинг. Не знаю уж полноту понимания js ботами, но они его выполняют, может ограниченно, но выполняют. Да ты и сам можешь его выполнить, где тут либы для эмуляции браузера вылялись. Короче, помойму неудачный способ.

Не уверен насчет скорости, не проверял. Ну и месяц наблюдать и потом запоминать...в принципе, что мешает ботам сетки ипов менять регулярно.

Я обычно ловушки в роботс расставляю. Ну и было дело, прозрачный пиксель ставил, как детектор бота.
 
Не уверен насчет скорости, не проверял. Ну и месяц наблюдать и потом запоминать...в принципе, что мешает ботам сетки ипов менять регулярно.

Месяц нужен не для отлова сеток ИП (этим занимается скрипт), а для определения условной модели поведения посетителя и от бота, применительно к твоему сайту. То есть смотрим сколько примерно выкачивает страничек среднестатистический юзер за единицу времени, потом это время увеличиваем на 20-25 процентов и забиваем в модуль.
 
вообще задача не ясна. какие боты? се, накручивальщики, грабберы? под каждую задачу свое решение.
 
поисковые боты, которые занимаются краулингом ни от кого не прячутся и ходят под своим юзерагентом и чтят роботс. а те, что не краулинговые и шифруются - они массово страницы не кушают, поэтому вычислить их по модели поведения маловероятно.
 
поисковые - юзер агент плюс потихоньку собирать базу ихних сеток ип. их не так и много
 
По юзерагенту всех не определишь, может с помошью JS можно? Боты вроде его не исполняют... Или исполняют?
В статсе liveinternet ботов нет...

У меня идея вот есть) Не знаю может до меня уже придумали :) Робот запрашивает robots.txt мы берём из логов его ип и всё...
Или бот не всегда его запрашивает? Ну всё равно что вы об этом думаете?
 
У меня идея вот есть) Не знаю может до меня уже придумали :) Робот запрашивает robots.txt мы берём из логов его ип и всё...
Или бот не всегда его запрашивает? Ну всё равно что вы об этом думаете?

Если это скрытый бот то он не будет запрашивать robots.txt, а обычных ботов и пр юзерагенту видно.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху