Помогите с robots.txt

Тема в разделе "Вопросы новичков", создана пользователем WerewolfGSM, 28 окт 2009.

Статус темы:
Закрыта.
  1. WerewolfGSM

    WerewolfGSM

    Регистр.:
    4 дек 2006
    Сообщения:
    257
    Симпатии:
    11
    Добрый день.
    Помогите пожалуйста с файлом роботс.тхт.
    Движок: wordpress

    Вопрос 1.
    Мне надо заблокировать некоторые страницы сайта. Например, у меня есть сайт www.site.com
    в ней есть директория www.site.com/tag/
    в этой директории есть поддиректории (которые создают список постов с такими:(
    www.site.com/tag/tag-1/
    www.site.com/tag/tag-2/
    ...
    www.site.com/tag/tag-n/

    Мне надо закрыть все директории tag/tag-1/ и далее (можно и саму главную директорию tag закрыть)
    Добавил в роботс.тхт команду
    User-agent: *
    Disallow: /tag/

    Но почему то в индексе есть страницы типа www.site.com/tag/tag-1/ и т.д.

    Команда была добавлена около 2х месяцев назад (практически с начала существования сайта).

    Вопрос 2.
    На том же сайте. Есть категории, которые выводят список постов входящих в категорию, ссылки вида:
    www.site.com/tovar/years/2000
    www.site.com/tovar/years/2001
    ...
    www.site.com/tovar/years/2009
    смысл тот же что и с тегами, что бы избежать дублирования контента, надо удалить из индекса все что имеет вид /years/№года
    наличие сточки
    Disallow: /movies/years/ ничего не дало. Страницы добавились в индекс.


    Вопрос 3. Более сложный
    На том же сайте. Есть категории, ссылки вида:
    www.site.com/tovar/countries/usa/
    www.site.com/tovar/countries/russia/
    www.site.com/tovar/countries/china/
    ...
    еще есть страницы постов:
    www.site.com/tovar/countries/china/tovar1.html
    www.site.com/tovar/countries/china/tovar2.html
    Надо заблокировать категории, но страницы с товарами оставить в индексе.

    Надеюсь на понимание, если вопрос нубский. Но действительно страницы находятся в индексе, хотя были заблокированы.
    Спасибо.
     
  2. ZCFD

    ZCFD

    Регистр.:
    16 янв 2008
    Сообщения:
    989
    Симпатии:
    437
    1) линк в студию
    2) зайди в панель вебмастера яндекса webmaster.yandex.ru ( ну и добавь свой сайт есно )

    там в частности есть Проверка корректности файла robots.txt и Пункты про индекс

    PS вроде из того что ты написал все правильно, так что см пункт 1
     
  3. капрал

    капрал

    Регистр.:
    2 окт 2008
    Сообщения:
    336
    Симпатии:
    45
    если твои страници в индексе уже, а ты поправил (запретил) инлексацию этих страниц, то к сожУлению,эти страници так и останутся в индексе. до к4акого временине знаю, но у самого такая же ситуация, вот уже третий месяц жду, смотрю...

    третий вопрос имхо нереально синтаксически поправить. через роботс конечно же. используй <META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">
     
  4. solarscape

    solarscape Постоялец

    Регистр.:
    19 июл 2009
    Сообщения:
    109
    Симпатии:
    8
    Страницы можно принудительно удалить.
    http://webmaster.yandex.ru/delurl.xml
     
  5. vbnm070

    vbnm070

    Регистр.:
    13 май 2008
    Сообщения:
    370
    Симпатии:
    193
    Анализатор robots от яндекса
    http://webmaster.yandex.ru/wmconsole/public_robots_txt.xml
    у гугля такой же есть в вебмастере
     
  6. WerewolfGSM

    WerewolfGSM

    Регистр.:
    4 дек 2006
    Сообщения:
    257
    Симпатии:
    11
    Сайт продвигается под гугль. В файле роботс.тхт никаких ошибок панель гугля не нашла. Все сделано можно сказать по их учебнику. А результат - страницы всеравно в индексе. Ну чтож, будем ждать, может сами выпадут.
    А для гугля есть аналог delurl.xml?
     
  7. vbnm070

    vbnm070

    Регистр.:
    13 май 2008
    Сообщения:
    370
    Симпатии:
    193
    https://www.google.com/webmasters/tools/removals?hl=ru
    http://www.google.com/support/webmasters/bin/answer.py?hl=ru&answer=92865
     
    WerewolfGSM нравится это.
  8. maniak81

    maniak81 Прохожие

    Я, честно говоря, не слышал
     
Статус темы:
Закрыта.