Удаление страниц из индекса ПС и их запрет на индексацию в robots.txt

LodeRunner

Старатель
Регистрация
10 Фев 2010
Сообщения
219
Реакции
12
Заранее извиняюсь за возможный дубликат темы, но не нашел похожей.
Мне нужно на одном из моих сайтов полностью удалить все страницы из индекса поисковиков кроме главной страницы этого сайта и сделать так, чтобы все эти страницы кроме главной в дальнейшем закрыть от индексации в поисковиках.
И вот вопрос: как мне удалить страницы из индекса так, чтобы в дальнейшем их вообще не было видно ни в каких историях, ни в кэше гугла, и чтобы при наборе в поисковиках "site:mysite.ru" эти страницы не выдавались?
Хватит ли для этого двух действий?
1. Прописать каждой странице в метатеге роботс "noindex, nofollow".
2. Запретить индексирование в файле robots.txt всех страниц кроме главной.

И как наиболее правильно в robots.txt прописать, чтобы на сайте запрещалось к индексированию абсолютно все кроме главной страницы? Т.е. надо индексировать только Для просмотра ссылки Войди или Зарегистрируйся, а все остальное(все страницы на сайте и т.п.) запрещать, чтобы в поисковике их не было видно?
Мне посоветовали прописать так(но не уверены в этом варианте:(

Подскажите пожалуйста самый верный вариант для robots.txt, очень нужно.
 
User-agent: *
Allow: /
Disallow: /posts
Disallow: /profile
Disallow: /page
Disallow: /ну и все остальные папки для конкретного движка, коих может быть несколько десятков.

для удаления из кеша, ед. способ мне видится - выдавать по УРЛу роботам "подмененную" страницу с каким-то хламом.
 
coguar
Нет, исключение именно по перечислению мне не подходит, я бы тогда и вопрос этот не задавал бы, мне надо именно как-то кратко все записать в robots.txt

Ну а со временем страницы из индекса выйдут и их не будет видно через "site:mysite.ru" в поисковиках? Или если уж их проиндексировали один раз, то их можно будет теперь всегда как-то обнаружить через поисковик, даже если эти страницы запрещены к индексации в роботс.txt и метатегах?

Блин, как записать-то запрет индексации всего и всех страниц на сайте кроме главной страницы не через перечисление? Помогите, надо точный работающий вариант.

Может быть вот так(при этом сделать 301 редирект с mysite.ru/index.php на mysite.ru)?
 
тоже раньше задавался таким вопросом, нашел хороший сайт с типичными примерами
закрыл от индексации весь сайт и где-то через месяц из индекса вылетел весь полностью.
 
Уже написали, только чуть неправильно :)

User-agent: *
Allow: /
Disallow: /$
 
Уже написали, только чуть неправильно :)
User-agent: *
Allow: /
Disallow: /$
это я ему посоветовал, нет там ошибки, а вы закрыли главную страницу, а все остальное оставили для индексации. Я просто не уверен был, что сработает на 100% для всех поисковиков, так как ненаписано, что для яндекс... поэтому лучше и закрыть все страницы по одной...

почитайте что означает символ $ в robot.txt

Автор, чем вам не нравится



зачем вам еще варианты, я же написал что другой вариант только закрыть по 1 все страницы
 
Автор, чем вам не нравится
Да, да, это подходит. Я сначала был неуверен в этом правиле, но теперь побольше почитал про символ $ и убедился, что это вариант подходит. Спасибо)
 
Странное какое-то дело! У меня сейчас три сайта. Один на укозе. Роботс - стандартный - вопросов ни у Яши, ни у гугла нет. Все хоккей. Два сайта сделал на: 1 - Джумла, 2 - ДЛЕ. Оставил и там, и там поначалу Роботсы, которые были стандартными для ЦМС. Гуглу почти все понравилось и он очень даже прекрасно проиндексировал сайты ( лучше даже,чем я ожидал) А яндекс - 0 страниц к индексации!!!! Начал копаться. Посмотрел "продвинутые" роботсы на форумах для моих WVC. поставил их - результат еще хуже: Яша - 0 как ибыл,а Гугл кучустраниц нужных их поиска вывел!
Оставил сейчас: Новостной сайт на ДЛЕ:

Попробую как-то так! Все рекомендуют еще закрывать: Disallow: /xmlrpc/ - не нашел информации зачем это нужно и почему это хорошо.
кстати - закрыл ленту РСС - по рекомендации опять же. Но мучает вопрос - а зачем ее закрывать,если там информация?
 
User-agent: *
Disallow: /user/
Disallow: */rss.xml
Disallow: /tags/
User-agent: Yandex
Disallow: /user/
Disallow: */rss.xml
Disallow: /tags/
Host: Для просмотра ссылки Войди или Зарегистрируйся
два раза дублируется одно и тоже, User-agent: * - означает что для всех поисковиков. В остальном, все нормально, просто яндекс вообще не проиндексировал ваш сайт, хоть 1 но должна быть страница в индексе, довно добавили в поисковик?
я rss закрыл чтобы небыло кучи ссылок с 404 ошибкой
tags как понимаю облако тегов, я тоже закрыл, поисковики с ума сходили :) профиль юзера закрыть, тоже правильно...
Предположение: xmlrpc понятия не имею что это, но подозреваю там файл не html и поисковик все равно его проигнорирует (неизвестный формат)
 
Sharovchic
У тебя ошибка в роботс - перед строкой "User-agent: ..." надо делать пустую строку. Еще "Нost:..." должен быть только одним, т.е. одна строка.

два раза дублируется одно и тоже, User-agent: * - означает что для всех поисковиков.
Яндекс пможет не понять правило User-agent: *, везде рекомендуют еще специально для него писать.

Вот так нормально:
 
Назад
Сверху