Робот яндекса загружает запрещенные в robots страницы

Тема в разделе "Русские поисковики", создана пользователем sunyang, 29 янв 2012.

  1. sunyang

    sunyang

    Регистр.:
    25 апр 2009
    Сообщения:
    444
    Симпатии:
    30
    Не пойму в чем дело. Запретил для индексации кучу страниц для робота яндекса.
    robots.txt:
    User-agent: Yandex
    Disallow: /*/?sort
    Disallow: /index.php$
    Disallow: /search/
    Disallow: /index.php?
    Disallow: /published/SC/html/scripts/rssfeed.php?
    Allow: /?ukey=feedback$
    Allow: /index.php?ukey=feedback$

    Захожу в панель вебмастера, смотрю:
    Загружено роботом: 4400
    Страниц в поиске: 815

    Причем смотрю:
    Загружено страниц
    2288 - с юрлом index.php? который запрещен в роботс и
    820 - published/SC/html/scripts/rssfeed.php? - тоже запрещены в роботс

    Накой х... яшин робот грузит в базу запрещенные страницы?
     
  2. Menro

    Menro web, seo, email, hack

    Регистр.:
    27 янв 2008
    Сообщения:
    599
    Симпатии:
    112
    Если стоит Метрика, то надо настроить код счетчика, а именно поставить в настройках галочку "Запрет отправки страниц на индексацию".
    Если Метрики нет, думаю на этот вопрос может ответить только сам Яндекс.
     
  3. IamDevil

    IamDevil Капитан

    Регистр.:
    15 ноя 2009
    Сообщения:
    243
    Симпатии:
    56
    Menro вам правильно подсказал. Или лучше тогда вообще снесите Метрику, если у вас сайт малопосещаемый. А вообще после запрета индексации каких-то урлов в роботс надо подождать месяца два-три, чтобы ПС приняла изменения и выкинула странички из выдачи. Также можете вбить нужные урлы в эту форму: http://webmaster.yandex.ru/delurl.xml
     
  4. zek24

    zek24

    Moderator
    Регистр.:
    14 ноя 2009
    Сообщения:
    776
    Симпатии:
    230
    Не помню точных цифр, но пару раз видел такое:
    загружено 600 в индексе 1000.
    Как такое может быть?
     
  5. IamDevil

    IamDevil Капитан

    Регистр.:
    15 ноя 2009
    Сообщения:
    243
    Симпатии:
    56
    Это могут быть дублированные копии страничек. Например, та же Джумла генерит версию для печати и pdf для каждой страницы.
     
  6. bork75

    bork75 Д☼брая собака )

    Регистр.:
    21 июн 2008
    Сообщения:
    1.449
    Симпатии:
    716
    Нужно посмотреть, участвуют ли эти страницы в поиске...
    То что он их грузит в базу это нормально, но в выдаче их не должно быть.
     
  7. KMaster

    KMaster Постоялец

    Регистр.:
    29 май 2006
    Сообщения:
    84
    Симпатии:
    29
    Дубли страниц, исключенные роботом, запрещенные к индексации. Подгружает робот всё, до чего дотянется, а включает в индекс уже руководствуясь своими алгоритмами определения дублированного контента и ещё один Яндекс знает чего, а также инструкциями robots.txt и прямым запретом в тексте страницы (страницы, у которых весь контент заключен в noindex он тоже из индекса выплевывает).
     
  8. KMaster

    KMaster Постоялец

    Регистр.:
    29 май 2006
    Сообщения:
    84
    Симпатии:
    29
    Дубли страниц, исключенные роботом, запрещенные к индексации. Подгружает робот всё, до чего дотянется, а включает в индекс уже руководствуясь своими алгоритмами определения дублированного контента и ещё один Яндекс знает чего, а также инструкциями robots.txt и прямым запретом в тексте страницы (страницы, у которых весь контент заключен в noindex он тоже из индекса выплевывает).
     
  9. zek24

    zek24

    Moderator
    Регистр.:
    14 ноя 2009
    Сообщения:
    776
    Симпатии:
    230
    в том то и дело, что в индексе больше, чем найдено...
     
  10. Menro

    Menro web, seo, email, hack

    Регистр.:
    27 янв 2008
    Сообщения:
    599
    Симпатии:
    112
    Настраивай Robots.txt и пиши в Яндекс. Все будет хорошо!