Как определить ботов?

Тема в разделе "Другие языки", создана пользователем root230101, 5 янв 2009.

Статус темы:
Закрыта.
Модераторы: Цукер
  1. root230101

    root230101

    Регистр.:
    19 сен 2007
    Сообщения:
    304
    Симпатии:
    21
    По юзерагенту всех не определишь, может с помошью JS можно? Боты вроде его не исполняют... Или исполняют?
    В статсе liveinternet ботов нет...
     
  2. General Fizz

    General Fizz Боевой Генерал :)

    Регистр.:
    11 апр 2007
    Сообщения:
    753
    Симпатии:
    396
    Боты как правило выкачивают сайт с большой скоростью - несколько страничек в секунду-две, поэтому прикручиваем к Апачу модуль mod_evasive, затем наблюдаем месяц и выставляем правильные настройки таймаутов и ипишники белых поисковых ботов.
     
  3. noIIIpera

    noIIIpera

    Регистр.:
    31 янв 2007
    Сообщения:
    283
    Симпатии:
    63
    Действительно, не все боты светятся в рефах, видимо подменяют юзерагент, типа ссылки палят или клоакинг. Не знаю уж полноту понимания js ботами, но они его выполняют, может ограниченно, но выполняют. Да ты и сам можешь его выполнить, где тут либы для эмуляции браузера вылялись. Короче, помойму неудачный способ.

    Не уверен насчет скорости, не проверял. Ну и месяц наблюдать и потом запоминать...в принципе, что мешает ботам сетки ипов менять регулярно.

    Я обычно ловушки в роботс расставляю. Ну и было дело, прозрачный пиксель ставил, как детектор бота.
     
  4. General Fizz

    General Fizz Боевой Генерал :)

    Регистр.:
    11 апр 2007
    Сообщения:
    753
    Симпатии:
    396
    Месяц нужен не для отлова сеток ИП (этим занимается скрипт), а для определения условной модели поведения посетителя и от бота, применительно к твоему сайту. То есть смотрим сколько примерно выкачивает страничек среднестатистический юзер за единицу времени, потом это время увеличиваем на 20-25 процентов и забиваем в модуль.
     
  5. Jacob

    Jacob

    Регистр.:
    18 окт 2006
    Сообщения:
    257
    Симпатии:
    18
    вообще задача не ясна. какие боты? се, накручивальщики, грабберы? под каждую задачу свое решение.
     
  6. root230101

    root230101

    Регистр.:
    19 сен 2007
    Сообщения:
    304
    Симпатии:
    21
    поисковые боты
     
  7. Jacob

    Jacob

    Регистр.:
    18 окт 2006
    Сообщения:
    257
    Симпатии:
    18
    поисковые боты, которые занимаются краулингом ни от кого не прячутся и ходят под своим юзерагентом и чтят роботс. а те, что не краулинговые и шифруются - они массово страницы не кушают, поэтому вычислить их по модели поведения маловероятно.
     
  8. zerdek

    zerdek

    Регистр.:
    29 ноя 2007
    Сообщения:
    346
    Симпатии:
    50
    поисковые - юзер агент плюс потихоньку собирать базу ихних сеток ип. их не так и много
     
  9. MegO

    MegO Постоялец

    Регистр.:
    13 фев 2009
    Сообщения:
    130
    Симпатии:
    13
    У меня идея вот есть) Не знаю может до меня уже придумали :) Робот запрашивает robots.txt мы берём из логов его ип и всё...
    Или бот не всегда его запрашивает? Ну всё равно что вы об этом думаете?
     
  10. hidden_4003

    hidden_4003 Создатель

    Регистр.:
    17 авг 2007
    Сообщения:
    16
    Симпатии:
    1
    Если это скрытый бот то он не будет запрашивать robots.txt, а обычных ботов и пр юзерагенту видно.
     
Статус темы:
Закрыта.