robots.txt необычное условие

Тема в разделе "Вопросы новичков", создана пользователем Василий86, 26 окт 2011.

Статус темы:
Закрыта.
  1. Василий86

    Василий86 Создатель

    Регистр.:
    16 дек 2009
    Сообщения:
    34
    Симпатии:
    10
    Добрый день!
    Будет ли корректно работать следующая конструкция в robots.txt:
    User-agent: *
    Allow: /index.php?*
    Disallow: /index.php
    Sitemap: http://сайт.ком/sitemap.xml
    Host: сайт.ком

    Тоесть надо запретить индексацию сайт.ру/index.php, но разрешить индексацию страниц типа сайт.ру/index.php?каталог=12

    Вообще задача убрать из индекса дубль - страницу сайт.ру/index.php (дублирует сайт.ру). 301 редиректом с сайт.ру/index.php на сайт.ру добиться не могу - выдает что редирект бесконечный.
     
  2. Hatred

    Hatred Постоялец

    Регистр.:
    2 ноя 2011
    Сообщения:
    127
    Симпатии:
    39
    мне кажется что правильнее добавить $

    пример в яндексе:
    http://help.yandex.ru/webmaster/?id=996567#996572

    вообще в яндексе есть тестирование роботса
    загоните список урлов и посмотрите какие будут индексироваться
     
    Василий86 нравится это.
  3. Dimanf

    Dimanf Постоялец

    Регистр.:
    27 фев 2010
    Сообщения:
    66
    Симпатии:
    10
    Ясли речь только об Яндексе, то проверить можно на странице:
    http://webmaster.yandex.ru/robots.xml
    Правда, у разных поисковиков реакция может быть разной
     
  4. spectailLL

    spectailLL SP

    Регистр.:
    21 ноя 2008
    Сообщения:
    265
    Симпатии:
    82
    Ставил
    Disallow: /index.php
    Проблем не возникало никогда, т.к. правило запрещает к индексу только конкретный урл, как бы "важно он не звучал":). Из индекса дубль улетал, что и требовалось.
    Allow: /index.php?* - пустое, на мой взгляд правило. И без него всё будет индексироваться. Я бы ограничился только запрещающим правилом.

    И если речь о joomla с включенным ЧПУ, то пропиши ещё то, что ниже. Это избавит от дубль-урлов с крякозябрами.

    Disallow: /*?*
     
    Василий86 нравится это.
  5. komyak

    komyak

    Регистр.:
    4 фев 2009
    Сообщения:
    482
    Симпатии:
    183
    Имеете ввиду сессии из адресов убрать?
     
  6. spectailLL

    spectailLL SP

    Регистр.:
    21 ноя 2008
    Сообщения:
    265
    Симпатии:
    82
    Джумла грешна случайными урлами на одну и ту-же страницу вида:

    mysite.ru/kge12rjg&=35165?lfhglkag45 ну и т.п. хренотой.

    Откуда она берётся - это дело другое (вывод страницы как блог категорий и ещё в некоторых случаях), но дубль-контент капитальный.

    У меня однажды сайт просел сильно из-за вот таких урлов с включенным SEO. Помогло правило, которое привёл в предыдущем своём посте.

    Disallow: /*?* - запрещает к индексации всё, что в урле имеет знак вопроса.
     
  7. Василий86

    Василий86 Создатель

    Регистр.:
    16 дек 2009
    Сообщения:
    34
    Симпатии:
    10
    После прочетния и раздумий все-таки написал в роботсе то, что написано в моем первом посте. Прошло уже несколько апов Яндекса. И Яндекс и Гугл скушали отлично. Результат достигнут :)
     
Статус темы:
Закрыта.