Поисковые боты (yandex, googlebot, msnbot и др.) нагружают сайт

Тема в разделе "Вопросы новичков", создана пользователем E-body, 25 авг 2009.

Статус темы:
Закрыта.
  1. E-body

    E-body

    Регистр.:
    6 сен 2007
    Сообщения:
    979
    Симпатии:
    315
    Здраствуйте.
    Проблема такая, вобщем имеется портал дле+ипб(форум) которые посещают поисковые боты, часто замечал что при посещении сразу несколькими ботами сайт медленнее работает и бывало такое что хостер отключает на время изза превышенной нагрузки.
    Переехать на другой хост не предлогать, это не выход.
    Подскажите как можно усмирить ботов, так чтоб умеренно индексировали странички без перенагрузок и каких ботов стоит не допускать к порталу?!
    Как один из знакомых вариантов (не помогает), ограничение через robots.txt :
    PHP:
    User-agent: *
    Crawl-delay10
    п.с. портал расчитан на русскоязычную публику :)

    Нашел обсуждение вопроса на этом форуме http://www.nulled.ws/showthread.php?t=126145
    Пару интересных цитат
     
  2. rsrd

    rsrd

    Регистр.:
    21 апр 2007
    Сообщения:
    375
    Симпатии:
    34
    В роботсах прописать Crawl-delay (уже есть), revisit-after.

    Закрыть от ботов все лишнее на сайте + запретить ходить по сайту ненужным ботам.
     
  3. WWWovan

    WWWovan Создатель

    Регистр.:
    23 июн 2007
    Сообщения:
    23
    Симпатии:
    2
    У меня в свое время возникли проблимы из-за яхуговского бота. Уж очень прилично грузил. Закрыл для него поскольку для русскоязычных сайтов заходов с него очень мало.
     
    E-body нравится это.
  4. Jools

    Jools Создатель

    Регистр.:
    28 июн 2009
    Сообщения:
    14
    Симпатии:
    3
    Да есть такая проблема. Как правило ночью начинают все в одно время лезть, Yandex, Google, Mail. Из-за чего сервер (из-за большой процессорной нагрузки) временно вырубает сайт и ссылки от sape уходят в error.

    Отключить поисковиков через htaccess для меня не выход, т.к. сайт ссылки продаёт, поэтому было принято решение по оптимизации движка.

    В частности написание системы кэша для не зарегистрированных пользователей. Т.е. поисковикам выдается теперь статика. Проблему решило :)
     
  5. seoboy

    seoboy

    Регистр.:
    17 мар 2007
    Сообщения:
    165
    Симпатии:
    27
    В роботсе прописать следующее и можно с задержками поиграть. У меня в основном яху наглеет,ну и остальных ненужных обрубить. Оптимизация движка конечно хороший вариант,но роботс, поможет людям, сидящим на хостнг тарифах с ограничением по трафику.

     
    E-body нравится это.
  6. xumukys

    xumukys

    Регистр.:
    16 ноя 2008
    Сообщения:
    495
    Симпатии:
    90
    Лучше всего в роботсе прописать кравл делей и запретить всех ботов кроме яндекса и гугла, если ресурс рускоязычный, то траф с остальных ПС не столь критичен...
     
  7. alfaexpert

    alfaexpert

    Регистр.:
    23 июл 2008
    Сообщения:
    183
    Симпатии:
    27
    А как вам идея блокировать это все на уровне Апача ?
    Чтобы веб сервер при соединении Юзер Агент смотрел и блоикровал Cuil и подобного вида гадости ?
    У меня веб сервер с 500 сайтов, траффика на них болшого нет но иногда боты создают нагрузку и сейчас основная идея перенастроить апач на блоикровку Cuil
    Нашел ответ на собственные вопросы, может кому пригодится
    У меня WHM и через нее я активировал mod_security для веб сервера
    Далее в конфиге mod_security (Для WHM это раздел Plugins -> mod_security)
    прописываем строчку
    PHP:
    SecRule REQUEST_HEADERS:User-Agent "cuil" "log,deny,msg:'Cuil bot detected'"
    И теперь если User Agent пользователя содержит строчку cuil соединение будет разрываться автоматически на всех сайтах сервера
     
Статус темы:
Закрыта.