[Помогите] Перегруз WP поисковыми ботами

Тема в разделе "Wordpress", создана пользователем nabber, 10 мар 2010.

Статус темы:
Закрыта.
Модераторы: Sorcus
  1. nabber

    nabber

    Регистр.:
    14 дек 2006
    Сообщения:
    163
    Симпатии:
    15
    Добрый день, заметил что при переезде/смени IP сервера, начинается черти что, на сайт лезут все кому не лень. Сейчас VDS 1100mhz 512mb практически лежит вот уже второй день. Фаил httpd-log за 10 часов вырастает на 5 мегабайт. Лезут все yandex,aport,yahoo,80ног(80legs и такой кроулер есть) и такое ощущение что они пытаются весь сайт заново пере индексировать. Супер кеш плагин загнал за 4 часа ~ 5k страниц в кеш. Ну в общем не индексация а Ддос какой то. Как с этим бороться чтобы при этом поисковой выдачи не повредить.

    З.Ы. Правда уже траф упал с гугла так как постоянные ошибки загрузки страниц были и из индекса по выбрасывал уже много страничек вернется ли трафик :confused:
     
  2. Alex

    Alex

    Регистр.:
    24 мар 2006
    Сообщения:
    563
    Симпатии:
    588
    Для крупных поисковиков вроде Google и Yandex и т.п. достаточно будет прописать в robots.txt частоту обращения к сайту
    Хорошо-бы также в этом файле определить явно, каким поисковикам доступ разрешён - перечисленные вами загадочные 80legs и апорт вряд-ли дают хоть сколь-нибудь заметный приток посетителей, зачем их вообще пускать?
     
  3. nabber

    nabber

    Регистр.:
    14 дек 2006
    Сообщения:
    163
    Симпатии:
    15
    Хочу уточнить про задержку сканирования в роботс, т.к теперь гугл почему то уже сутки не ухдит с сайта и апач колом. Выставленная задержка может как ни буть негативно сказаться на индексации для меня важен именно гугл, в вебмастерс тулз написано что бот сам может определять скорость сканирования и лучше ничего не менять. Но в данный момент мне постаянно приходется перегружать апач 100 % загрузка проца и памяти в админку сайта войти не могу.

    Все же поставил crawl-delay но помоему извените за выражение им до п...ды на задержку. Одновременно подключение с кучи разных айпи ботов яху и гугла.
     
  4. q17g

    q17g Писатель

    Заблокирован
    Регистр.:
    13 дек 2009
    Сообщения:
    33
    Симпатии:
    8
    просто перекройте доступ всем левым роботам
    _http://scumdesign.ru/robots.txt

    вот тут подборочка, подрезанная где-то в инете, нагрузка и лишний трафик отступают, еще посмотрите как много блогов оповещается о новых постах, тоже грузит сервер
     
    anadikt и nabber нравится это.
  5. anadikt

    anadikt

    Регистр.:
    29 янв 2010
    Сообщения:
    391
    Симпатии:
    58
    А чем эти левые боты могут на сайте заниматься?? у меня такое ощущение что контент тырят :confused: А вот за файлик огромное спасибо, сам бы вряд ли такой сделал!!
     
    carlitoz и q17g нравится это.
  6. q17g

    q17g Писатель

    Заблокирован
    Регистр.:
    13 дек 2009
    Сообщения:
    33
    Симпатии:
    8
    контент индексируют, те которые воруют контент в большинстве своем делают это по rss и один раз. им нет нужды многократно индексировать страницы
     
  7. yroc

    yroc

    Регистр.:
    13 мар 2007
    Сообщения:
    174
    Симпатии:
    45
    К сожалению, не все боты слушаются robots.txt, а некоторые туда даже не заглядывают. Поэтому я раньше особо надоедливых глушил через htaccess. Если память мне не изменяет, делается это так:

    Deny from 12.345.678.90 Блокируем конкретный IP
    Deny from 12.345.678 Блокируем IP в диапазоне от 12.345.678.0 до 12.345.678.255

    С Гуглем и Яндексом так обращаться, пожалуй, не стоит, а вот с "80 ног" и т.п. - запросто...
     
  8. ugcker

    ugcker Постоялец

    Регистр.:
    17 ноя 2008
    Сообщения:
    69
    Симпатии:
    42
    Иногда бывает, что боты ходят кругами по сайту из-за хорошей перелинковки. Мне часто помагала сайт-мапа, загнаная в панель веб-мастера.
     
  9. efs

    efs SEO оптимизатор дискрипторов одностраничных сайтов

    Moderator
    Регистр.:
    20 ноя 2009
    Сообщения:
    825
    Симпатии:
    475
    :D А на зачем делать список тех кому нельзя (вы можете и не подозревать о существовании каких-то ботов), а не создать правило вида:
    и все боты не указанные очевидно идут лесом
     
  10. tatams

    tatams

    Регистр.:
    15 май 2009
    Сообщения:
    501
    Симпатии:
    84
    Аналогично как с Disallow - раздельные Crawl-delay тоже могут пригодиться - выставить в зависимости от приоритетов
    Да и особо не пугайтесь, если сайт не мега-обновляемый - лучше гугля будет медленно перебирать страницы, чем потом в панельке ВМа напишет, что у вас лажа со скоростью сайта, что теоритически тоже фактор ранжирования
     
Статус темы:
Закрыта.