Так ли нужны (важны) все нашествия членистоногих?

Тема в разделе "Вопросы новичков", создана пользователем andrewa, 26 ноя 2009.

Статус темы:
Закрыта.
  1. andrewa

    andrewa

    Регистр.:
    11 янв 2008
    Сообщения:
    171
    Симпатии:
    7
    Наблюдаю картину нашествия всевозможных поисковых систем, роботов, пауков на своем сайте.

    Ясное дело, что главные поисковые системы - Yandex, Google, MSN, Bing, Rambler, Mail, Yahoo - просто обязаны и необходимы сайту, иначе как его никто и не найдет.

    [​IMG]

    Подскажите, плиз, нужны ли остальные никому неизвестные и ничего не приносящие роботы для сайта (Jakarta, BlogPuls, Nokia, Samsung, HTMLParser), предназначенного для русскоговорящей аудитории.

    Потому как они бесполезно шарятся на сайте, может им стоит запретить присутствие на сайте в robots.txt как Disallow?
     
  2. SergeiSP

    SergeiSP

    Регистр.:
    13 фев 2007
    Сообщения:
    375
    Симпатии:
    115
    Если есть проблема с трафиком, нагрузкой на сервер, то боты нужно запрещать. Если сайт русскоязычный, то имеет смысл ставить только три поисковика: яша, гугл, рамблер - остальное запрещать. Так и бэки не спаляться через яхо и нагрузки не будет сильно. А потери трафики практически не будет при этом.
     
  3. solarscape

    solarscape Постоялец

    Регистр.:
    19 июл 2009
    Сообщения:
    109
    Симпатии:
    8
    Тут написано как можно закрыть доступ ненужным поисковикам: http://wlad2.ru/%D1%81%D0%BD%D0%B8%D0%B6%D0%B0%D0%B5%D0%BC-%D0%BD%D0%B0%D0%B3%D1%80%D1%83%D0%B7%D0%BA%D1%83-%D0%BD%D0%B0-%D1%85%D0%BE%D1%81%D1%82%D0%B8%D0%BD%D0%B3-%D0%BF%D0%BE%D0%B4-%D1%81%D0%B0%D1%82%D0%B5%D0%BB/
     
  4. andrewa

    andrewa

    Регистр.:
    11 янв 2008
    Сообщения:
    171
    Симпатии:
    7
    Меня интересует присутствие только основных роботов Рунета. А все запреты выставленные в robots.txt вовсе игнорируются остальными неизвестными и ненужными, посещаемыми мой сайт...

    вот такой robots.txt:

    Код:
    User-agent: Yandex
    Disallow: */admin
    Disallow: /archive
    Disallow: /tag
    Disallow: /comments
    Disallow: /login 
    Disallow: /logout
    
    User-agent: Googlebot
    Disallow: */admin
    Disallow: /archive
    Disallow: /tag
    Disallow: /comments
    Disallow: /login 
    Disallow: /logout
    
    User-agent: StackRambler
    Disallow: */admin
    Disallow: /archive
    Disallow: /tag
    Disallow: /comments
    Disallow: /login 
    Disallow: /logout
    
    User-agent: Mail.Ru
    Disallow: */admin
    Disallow: /archive
    Disallow: /tag
    Disallow: /comments
    Disallow: /login 
    Disallow: /logout
    
    User-agent: *
    Disallow: /
    Host: site.ru
    Sitemap: http://site.ru/sitemap.xml
    
    кроме Mediapartners-Google, которого я не выделил, и в течение последнего месяца я наблюдал социальную рекламу на сайте и не мог никак понять в чем же дело :(

    зато подобного рода боты NOKIAN95, SAMSUNG-SGH-U700, Twiceler, Python-urllib, Who.is Bot, lwp-trivia, Wget и др. не реагируют на robots.txt.

    можно ли взамен последнего файла как-то с помощью .htaccess разрешить доступ 4 ботам, а остальным запретить?
    потому как если запрещать посредством .htaccess, добавится еще много строк в мой и так довольно большой файл (у меня там прописаны редиректы 301, правила строк на 100:(

    Код:
    RewriteEngine on
    RewriteCond %{HTTP_USER_AGENT} liveinternet [OR]
    RewriteCond %{HTTP_USER_AGENT} StackRambler [OR]
    RewriteCond %{HTTP_USER_AGENT} WebAlta [OR]
    RewriteCond %{HTTP_USER_AGENT} Yanga [OR]
    RewriteCond %{HTTP_USER_AGENT} Twiceler [OR]
    RewriteCond %{HTTP_USER_AGENT} Flexum [OR]
    RewriteCond %{HTTP_USER_AGENT} Aport [OR]
    RewriteCond %{HTTP_USER_AGENT} Slurp [OR]
    RewriteCond %{HTTP_USER_AGENT} msnbot [OR]
    RewriteCond %{HTTP_USER_AGENT} ia_archiver [OR]
    RewriteCond %{HTTP_USER_AGENT} libwww-perl
    RewriteRule ^(.*)$ – [F,L]
     
  5. nullsab

    nullsab Постоялец

    Регистр.:
    5 июн 2007
    Сообщения:
    65
    Симпатии:
    10
    Robots.txt здесь совершено бесполезен. Юзерагенты типа NOKIAN95, SAMSUNG-SGH-U700 - это не боты, а юзеры с мобильников. HTMLParser - скорее всего чей-то парсер. Закрыть доступ этим юзерагентам через .htaccess можно, но бесмысленно. В парсере можно поставить любой ua, от бродилки до бота Google, а вот реальных пользователей порежешь.
     
Статус темы:
Закрыта.