Удаление страниц из индекса ПС и их запрет на индексацию в robots.txt

Тема в разделе "Русские поисковики", создана пользователем LodeRunner, 23 авг 2011.

  1. LodeRunner

    LodeRunner

    Регистр.:
    10 фев 2010
    Сообщения:
    220
    Симпатии:
    12
    Заранее извиняюсь за возможный дубликат темы, но не нашел похожей.
    Мне нужно на одном из моих сайтов полностью удалить все страницы из индекса поисковиков кроме главной страницы этого сайта и сделать так, чтобы все эти страницы кроме главной в дальнейшем закрыть от индексации в поисковиках.
    И вот вопрос: как мне удалить страницы из индекса так, чтобы в дальнейшем их вообще не было видно ни в каких историях, ни в кэше гугла, и чтобы при наборе в поисковиках "site:mysite.ru" эти страницы не выдавались?
    Хватит ли для этого двух действий?
    1. Прописать каждой странице в метатеге роботс "noindex, nofollow".
    2. Запретить индексирование в файле robots.txt всех страниц кроме главной.

    И как наиболее правильно в robots.txt прописать, чтобы на сайте запрещалось к индексированию абсолютно все кроме главной страницы? Т.е. надо индексировать только http://mysite.ru, а все остальное(все страницы на сайте и т.п.) запрещать, чтобы в поисковике их не было видно?
    Мне посоветовали прописать так(но не уверены в этом варианте:(

    User-agent: *
    Allow: /$
    Disallow: /

    Подскажите пожалуйста самый верный вариант для robots.txt, очень нужно.
     
  2. coguar

    coguar Постоялец

    Регистр.:
    4 авг 2007
    Сообщения:
    61
    Симпатии:
    11
    User-agent: *
    Allow: /
    Disallow: /posts
    Disallow: /profile
    Disallow: /page
    Disallow: /ну и все остальные папки для конкретного движка, коих может быть несколько десятков.

    для удаления из кеша, ед. способ мне видится - выдавать по УРЛу роботам "подмененную" страницу с каким-то хламом.
     
  3. LodeRunner

    LodeRunner

    Регистр.:
    10 фев 2010
    Сообщения:
    220
    Симпатии:
    12
    coguar
    Нет, исключение именно по перечислению мне не подходит, я бы тогда и вопрос этот не задавал бы, мне надо именно как-то кратко все записать в robots.txt

    Ну а со временем страницы из индекса выйдут и их не будет видно через "site:mysite.ru" в поисковиках? Или если уж их проиндексировали один раз, то их можно будет теперь всегда как-то обнаружить через поисковик, даже если эти страницы запрещены к индексации в роботс.txt и метатегах?

    Блин, как записать-то запрет индексации всего и всех страниц на сайте кроме главной страницы не через перечисление? Помогите, надо точный работающий вариант.

    Может быть вот так(при этом сделать 301 редирект с mysite.ru/index.php на mysite.ru)?

    User-agent: *
    Allow: /index
    Disallow: /
     
  4. GoodStr

    GoodStr Постоялец

    Регистр.:
    20 фев 2009
    Сообщения:
    70
    Симпатии:
    13
    тоже раньше задавался таким вопросом, нашел хороший сайт с типичными примерами http://robotstxt.org.ru/robotsexclusion/guide
    закрыл от индексации весь сайт и где-то через месяц из индекса вылетел весь полностью.
     
    LodeRunner нравится это.
  5. Menro

    Menro web, seo, email, hack

    Регистр.:
    27 янв 2008
    Сообщения:
    599
    Симпатии:
    112
    Уже написали, только чуть неправильно :)

    User-agent: *
    Allow: /
    Disallow: /$
     
  6. psn

    psn

    Регистр.:
    30 апр 2009
    Сообщения:
    228
    Симпатии:
    30
    это я ему посоветовал, нет там ошибки, а вы закрыли главную страницу, а все остальное оставили для индексации. Я просто не уверен был, что сработает на 100% для всех поисковиков, так как ненаписано, что для яндекс... поэтому лучше и закрыть все страницы по одной...

    почитайте что означает символ $ в robot.txt

    Автор, чем вам не нравится

    User-agent: *
    Allow: /$
    Disallow: /

    зачем вам еще варианты, я же написал что другой вариант только закрыть по 1 все страницы
     
    LodeRunner нравится это.
  7. LodeRunner

    LodeRunner

    Регистр.:
    10 фев 2010
    Сообщения:
    220
    Симпатии:
    12
    Да, да, это подходит. Я сначала был неуверен в этом правиле, но теперь побольше почитал про символ $ и убедился, что это вариант подходит. Спасибо)
    User-agent: *
    Allow: /$
    Disallow: /
     
  8. Sharovchic

    Sharovchic Создатель

    Регистр.:
    26 июн 2011
    Сообщения:
    22
    Симпатии:
    1
    Странное какое-то дело! У меня сейчас три сайта. Один на укозе. Роботс - стандартный - вопросов ни у Яши, ни у гугла нет. Все хоккей. Два сайта сделал на: 1 - Джумла, 2 - ДЛЕ. Оставил и там, и там поначалу Роботсы, которые были стандартными для ЦМС. Гуглу почти все понравилось и он очень даже прекрасно проиндексировал сайты ( лучше даже,чем я ожидал) А яндекс - 0 страниц к индексации!!!! Начал копаться. Посмотрел "продвинутые" роботсы на форумах для моих WVC. поставил их - результат еще хуже: Яша - 0 как ибыл,а Гугл кучустраниц нужных их поиска вывел!
    Оставил сейчас: Новостной сайт на ДЛЕ:
    Попробую как-то так! Все рекомендуют еще закрывать: Disallow: /xmlrpc/ - не нашел информации зачем это нужно и почему это хорошо.
    кстати - закрыл ленту РСС - по рекомендации опять же. Но мучает вопрос - а зачем ее закрывать,если там информация?
     
  9. psn

    psn

    Регистр.:
    30 апр 2009
    Сообщения:
    228
    Симпатии:
    30
    два раза дублируется одно и тоже, User-agent: * - означает что для всех поисковиков. В остальном, все нормально, просто яндекс вообще не проиндексировал ваш сайт, хоть 1 но должна быть страница в индексе, довно добавили в поисковик?
    я rss закрыл чтобы небыло кучи ссылок с 404 ошибкой
    tags как понимаю облако тегов, я тоже закрыл, поисковики с ума сходили :) профиль юзера закрыть, тоже правильно...
    Предположение: xmlrpc понятия не имею что это, но подозреваю там файл не html и поисковик все равно его проигнорирует (неизвестный формат)
     
  10. LodeRunner

    LodeRunner

    Регистр.:
    10 фев 2010
    Сообщения:
    220
    Симпатии:
    12
    Sharovchic
    У тебя ошибка в роботс - перед строкой "User-agent: ..." надо делать пустую строку. Еще "Нost:..." должен быть только одним, т.е. одна строка.

    Яндекс пможет не понять правило User-agent: *, везде рекомендуют еще специально для него писать.

    Вот так нормально:

    User-agent: *
    Disallow: /user/
    Disallow: */rss.xml
    Disallow: /tags/
    User-agent: Yandex
    Disallow: /user/
    Disallow: */rss.xml
    Disallow: /tags/

    User-agent: Yandex
    Disallow: /user/
    Disallow: */rss.xml
    Disallow: /tags/
    User-agent: Yandex
    Disallow: /user/
    Disallow: */rss.xml
    Disallow: /tags/
    Host: www.сайт.ру

    Sitemap: http://сайт.ру
     
    Sharovchic, psn и Bizzaro нравится это.