robots.txt необычное условие

Статус
В этой теме нельзя размещать новые ответы.

Василий86

Создатель
Регистрация
16 Дек 2009
Сообщения
34
Реакции
10
Добрый день!
Будет ли корректно работать следующая конструкция в robots.txt:
User-agent: *
Allow: /index.php?*
Disallow: /index.php
Sitemap: Для просмотра ссылки Войди или Зарегистрируйся
Host: сайт.ком

Тоесть надо запретить индексацию сайт.ру/index.php, но разрешить индексацию страниц типа сайт.ру/index.php?каталог=12

Вообще задача убрать из индекса дубль - страницу сайт.ру/index.php (дублирует сайт.ру). 301 редиректом с сайт.ру/index.php на сайт.ру добиться не могу - выдает что редирект бесконечный.
 
мне кажется что правильнее добавить $

User-agent: *
Allow: /index.php?*
Disallow: /index.php$
Sitemap: Для просмотра ссылки Войди или Зарегистрируйся
Host: сайт.ком

пример в яндексе:
User-agent: Yandex
Disallow: /example$ # запрещает только '/example'
Disallow: /example*$ # так же, как 'Disallow: /example'
#запрещает и /example.html и /example



вообще в яндексе есть тестирование роботса
загоните список урлов и посмотрите какие будут индексироваться
 
Ясли речь только об Яндексе, то проверить можно на странице:

Правда, у разных поисковиков реакция может быть разной
 
Ставил
Disallow: /index.php
Проблем не возникало никогда, т.к. правило запрещает к индексу только конкретный урл, как бы "важно он не звучал":). Из индекса дубль улетал, что и требовалось.
Allow: /index.php?* - пустое, на мой взгляд правило. И без него всё будет индексироваться. Я бы ограничился только запрещающим правилом.

И если речь о joomla с включенным ЧПУ, то пропиши ещё то, что ниже. Это избавит от дубль-урлов с крякозябрами.

Disallow: /*?*
 
И если речь о joomla с включенным ЧПУ, то
пропиши ещё то, что ниже. Это избавит от
дубль-урлов с крякозябрами.
Имеете ввиду сессии из адресов убрать?
 
Имеете ввиду сессии из адресов убрать?

Джумла грешна случайными урлами на одну и ту-же страницу вида:

mysite.ru/kge12rjg&=35165?lfhglkag45 ну и т.п. хренотой.

Откуда она берётся - это дело другое (вывод страницы как блог категорий и ещё в некоторых случаях), но дубль-контент капитальный.

У меня однажды сайт просел сильно из-за вот таких урлов с включенным SEO. Помогло правило, которое привёл в предыдущем своём посте.

Disallow: /*?* - запрещает к индексации всё, что в урле имеет знак вопроса.
 
После прочетния и раздумий все-таки написал в роботсе то, что написано в моем первом посте. Прошло уже несколько апов Яндекса. И Яндекс и Гугл скушали отлично. Результат достигнут :)
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху