Робот яндекса загружает запрещенные в robots страницы

sunyang

Мастер
Регистрация
25 Апр 2009
Сообщения
440
Реакции
30
Не пойму в чем дело. Запретил для индексации кучу страниц для робота яндекса.
robots.txt:
User-agent: Yandex
Disallow: /*/?sort
Disallow: /index.php$
Disallow: /search/
Disallow: /index.php?
Disallow: /published/SC/html/scripts/rssfeed.php?
Allow: /?ukey=feedback$
Allow: /index.php?ukey=feedback$

Захожу в панель вебмастера, смотрю:
Загружено роботом: 4400
Страниц в поиске: 815

Причем смотрю:
Загружено страниц
2288 - с юрлом index.php? который запрещен в роботс и
820 - published/SC/html/scripts/rssfeed.php? - тоже запрещены в роботс

Накой х... яшин робот грузит в базу запрещенные страницы?
 
Если стоит Метрика, то надо настроить код счетчика, а именно поставить в настройках галочку "Запрет отправки страниц на индексацию".
Если Метрики нет, думаю на этот вопрос может ответить только сам Яндекс.
 
Menro вам правильно подсказал. Или лучше тогда вообще снесите Метрику, если у вас сайт малопосещаемый. А вообще после запрета индексации каких-то урлов в роботс надо подождать месяца два-три, чтобы ПС приняла изменения и выкинула странички из выдачи. Также можете вбить нужные урлы в эту форму: Для просмотра ссылки Войди или Зарегистрируйся
 
Не помню точных цифр, но пару раз видел такое:
загружено 600 в индексе 1000.
Как такое может быть?
 
Не помню точных цифр, но пару раз видел такое:
загружено 600 в индексе 1000.
Как такое может быть?
Это могут быть дублированные копии страничек. Например, та же Джумла генерит версию для печати и pdf для каждой страницы.
 
Нужно посмотреть, участвуют ли эти страницы в поиске...
То что он их грузит в базу это нормально, но в выдаче их не должно быть.
 
Не помню точных цифр, но пару раз видел такое: загружено 600 в индексе 1000. Как такое может быть?
Дубли страниц, исключенные роботом, запрещенные к индексации. Подгружает робот всё, до чего дотянется, а включает в индекс уже руководствуясь своими алгоритмами определения дублированного контента и ещё один Яндекс знает чего, а также инструкциями robots.txt и прямым запретом в тексте страницы (страницы, у которых весь контент заключен в noindex он тоже из индекса выплевывает).
 
Не помню точных цифр, но пару раз видел такое: загружено 600 в индексе 1000. Как такое может быть?
Дубли страниц, исключенные роботом, запрещенные к индексации. Подгружает робот всё, до чего дотянется, а включает в индекс уже руководствуясь своими алгоритмами определения дублированного контента и ещё один Яндекс знает чего, а также инструкциями robots.txt и прямым запретом в тексте страницы (страницы, у которых весь контент заключен в noindex он тоже из индекса выплевывает).
 
Назад
Сверху