как запретить индексацию через .htaccess

Тема в разделе "Тех. вопросы", создана пользователем sidor80, 14 июл 2007.

Статус темы:
Закрыта.
  1. sidor80

    sidor80 Постоялец

    Регистр.:
    15 фев 2007
    Сообщения:
    80
    Симпатии:
    33
    Вобшем хочу прогнать сайт по черным каталогам и линкопомойки хорошенько запрятать от поисковиков. закрывать через роботс тхт, ноуиндекс, запрет в мета тегах
    не катит потому как при дабовлении скрипты каталогов это все проверяют и боты не всегда выполняют эти дерективы поэтому решил делать через .htaccess. Хочу сделать запрет по двум параметрам запретить ботам индексировать страницы с разрешением .htm и вобше запретить просмотр вот нашол пример одного из способов

    "вот так запрещаем просмотр дора не ботам и не из поисковика

    RewriteEngine on
    Options +FollowSymlinks
    RewriteBase /

    RewriteCond %{REMOTE_ADDR} !(тут ипаки ботов)
    RewriteCond %{HTTP_REFERER} !(тут рефереры проверяем ботов и поисковиков) [NC]
    RewriteRule ^.*$ - [F] #если не бот и не из поисковика пишем запрет
    иначе показываем"

    но толком не могу понять как это правильно надо прописать в .htaccess приведите точный пример того как это надо правильно прописать .htaccess. И покажите пример запрета индексации страниц с разрешением .htm
     
  2. -Nou-

    -Nou- Постоялец

    Регистр.:
    29 апр 2007
    Сообщения:
    134
    Симпатии:
    12
    Эм... ни разу не видел, чтобы ботам что-то запрещали через хтацесс. Интересная мысль конечно, но не проще ли сделать в роботс.тхт:
    Код:
    User-agent: *
    Disallow: /
    Хотя это всё равно не спасает и любопытный гуглбот залазиет и индексирует
     
  3. General Fizz

    General Fizz Боевой Генерал :)

    Регистр.:
    11 апр 2007
    Сообщения:
    753
    Симпатии:
    396
    В данном случае неважно: rambler или stackrambler, google или googlebot - регулярки определяют наличие соответствующей сигнальной строки в юзер-агенте, поскольку раз боты забанены, то и подразумевается отсутствие заходов с поисковиков.
     
    Lenr нравится это.
  4. inko123

    inko123 Создатель

    Регистр.:
    12 фев 2007
    Сообщения:
    31
    Симпатии:
    3
    вот на фиде стоит запрет на ботов и спайдеров
    взял с UF
    Код:
    RewriteEngine On
    RewriteCond %{HTTP_USER_AGENT} (curl¦Dart.?Communications¦Enfish¦htdig¦Java¦larbin) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (FrontPage¦Indy.?Library¦RPT\-HTTPClient) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (libwww¦lwp¦www\.thatrobotsite\.com¦webbandit¦Wget¦Zeu¦w00t) [NC,OR]
    # Image-grabbers
    RewriteCond %{HTTP_USER_AGENT} (AcoiRobot¦Flickbot¦webcollage) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (Express¦Mister¦Collector) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} Image.?(fetch¦Stripper¦Sucker) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (LinkWalker¦ia_archiver¦NPbot|lwp-trivial|Subtext|Downloader|BabalooSpider|Nutch|larbin|page_verifier|IRLbot) [NC,OR]
    # BAD or SPAM bots
    RewriteCond %{HTTP_USER_AGENT} (Wells|College|iRc|Boston|Missigua|Snap|Rambler|DepSpid|Spam|tailrank|Java|perl|Netcraft|Lsearch/sondeur) [NC,OR]
    # Uzkoglazie BOTi i pro4ie urodi
    RewriteCond %{HTTP_USER_AGENT} (bot|spider|crawler|Baidu|Become|ShopWiki) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (Naver|China|http_get|Download|ichiro|sogou|Fetch|Shim) [NC]
    #
    
    
    RewriteRule .* - [F]
    
    # block blank user-agent
    SetEnvIf User-Agent ^$ BAD_BOT
    SetEnvIf User-Agent ^-$ BAD_BOT
    
    # keyweb
    SetEnvIf Remote_Addr "84\.19\.1([7][6-9]|[8][0-9]|[9][1])\.[0-9]+" BAD_BOT
    SetEnvIf Remote_Addr "87\.118\.([9][6-9]|[1][0-2][0-9])\.[0-9]+" BAD_BOT
    # layeredtech-SAVVIS
    SetEnvIf Remote_Addr "216\.3[2-5]\.[0-9]+\.[0-9]+" BAD_BOT
    SetEnvIf Remote_Addr "72\.21\.([3][2-9]|[4-5][0-9]|[6][0-3])\.[0-9]+" BAD_BOT
    SetEnvIf Remote_Addr "72\.36\.([1][2-9][0-9]|[2][0-9][0-9])\.[0-9]+" BAD_BOT
    SetEnvIf Remote_Addr "72\.232\.[0-9]+\.[0-9]+" BAD_BOT
    # thaplanet
    SetEnvIf Remote_Addr "67\.1(8|9)\.[0-9]+\.[0-9]+" BAD_BOT
    SetEnvIf Remote_Addr "70\.8[4-7]\.[0-9]+\.[0-9]+" BAD_BOT
    
    
    
    # Bad bot, no cookie!
    Order Allow,Deny
    Allow from all
    Deny from env=BAD_BOT
    
    
     
    bububu и sidor80 нравится это.
  5. blackseoteam

    blackseoteam Постоялец

    Регистр.:
    2 май 2007
    Сообщения:
    75
    Симпатии:
    2
    роботс.ткст многие боты просто игнорируют
     
  6. Chekist

    Chekist Создатель

    Регистр.:
    31 июл 2006
    Сообщения:
    35
    Симпатии:
    0
    на фиде всегда использую robots.txt накрутки серчей не вижу, боты не ходят по линкам из related
     
  7. edenlem

    edenlem Создатель

    Регистр.:
    10 сен 2006
    Сообщения:
    49
    Симпатии:
    8
    а если например запретить индексацию через мета теги помоему тоже канает
     
  8. lobzik

    lobzik

    Регистр.:
    8 авг 2006
    Сообщения:
    311
    Симпатии:
    49
    А почему через хтаксес? можно ведь в той странице на которой ссылки сдлать проверку на бота на php....
    if (bot) {nothing}
    if (!bot) {show_page}
     
  9. fenrir

    fenrir Создатель

    Регистр.:
    20 июн 2007
    Сообщения:
    27
    Симпатии:
    6
    Сто процентов не получится даже ботов одного поисковика не пустить. Для этого надо знать все IP ботов и всеего юзер агенты. Да вот только юзер агент может быть любой у бота, да и айпишники меняются/добавляются постоянно.
    Так что это мера временная.
     
  10. leofix888

    leofix888 Постоялец

    Регистр.:
    18 окт 2007
    Сообщения:
    76
    Симпатии:
    3
    robots.txt действительно игнорируют.
    inko123 привел правильный пример, тока список актуальных айпи ботов гугла постоянно меняется.
     
Статус темы:
Закрыта.