Количество страниц в Google и Яндекс

BestFish

Старатель
Регистрация
14 Июн 2014
Сообщения
171
Реакции
12
Доброго времени суток. Интересует следующее страниц у сайте с натяжкой 12к но Гугл и Яша показывают что в индексе 15к. Подскажите как обнаружить неизвестные страницы? Или где посмотреть подробную статистику сканирования по URL?
Мониторил вручную, искал дубли - ничего лишнего не нашел.
Заранее спасибо!
 
Яндекс Webmaster вроде всегда показывает точное значение, как может вообще что в индексе есть скрытые страницы))?
скиньте сайт стало интересно прямо
 
Скрытое содержимое для пользователя(ей): BestFish
 
Попробуйте вот что: нужно скачать программу screaming frog seo spider и режиме паука с user-agent-ом yandex(или гугл) пройтись пауком по сайту(режим spider), с учетом вашего текущего robots.txt. После того, как просканировали сайт, делаете выгрузку url-ов и смотрите, каких страниц быть не должно, отталкиваясь от этого составляете новый robots.txt. После этого смотрите, что получилось и проверяете, в индексе ли оно и если нужно удаляете вручную или просто ждете, когда страницы сами удаляться.
 
Попробуйте вот что: нужно скачать программу screaming frog seo spider и режиме паука с user-agent-ом yandex(или гугл) пройтись пауком по сайту(режим spider), с учетом вашего текущего robots.txt. После того, как просканировали сайт, делаете выгрузку url-ов и смотрите, каких страниц быть не должно, отталкиваясь от этого составляете новый robots.txt. После этого смотрите, что получилось и проверяете, в индексе ли оно и если нужно удаляете вручную или просто ждете, когда страницы сами удаляться.

Такой вопрос, у меня сканирует только 493 страницы и где выбирается user-agent? Или это все в платной версии. Заранее спасибо за ответ.
 
Качаете отсюда кейген, устанавливаете по инструкции.

если на последнюю версию кейген не сработал, в этом же архиве версия постарее, на ней работает(если при запуске хочет обновиться, жмем нет).

User-agent задается: Configuration -> UserAgent -> Googlebot Regular <- валидный юзерагент, рекомендую его

Configuration -> Spider - тут все настройки. Выставите все галочки в первом окошке, кроме последней. Если стоит галочка ignore robots.txt снимите ее.

Configuration -> Speed тут задает скорость прохода по сайту, если вылезает часто ошибка 500, то уменьшаете скорость прохода, 5 потоков обычно держит любой дешевый хостинг.

Чтобы составить новый robots.txt вам понадобятся такие пункты в менюшке, как Configuration -> Exclude - список url-ов, исключаемых по маске. Маска вида .*/url/.*

Выгрузка отчетов - Reports -> Serp summary -> all - выгружаете в удобный вам формат, дальше визуально ищете мусор.


Методика: Сканируете часть сайта, делаете выгрузку, нашли мусор, добавили его через маску в Exclude, запустили по новой сканирование сайта.
Сканируете до тех пор, пока вас не будет устраивать все url'ы, которые попадают в отчет. После того, как все получилось, берете данные из Exclude и составляете robots.txt.

В завершение загружаете новый robots.txt на сервер, очищаете весь Exclude, запускаете завершающее сканирование и проверяете, что все в порядке.

p.s. если при сканировании пишет, что мало памяти, нужно отредактировать файл ScreamingFrogSEOSpider.l4j.ini внутри файла инструкция.
 
Последнее редактирование:
Качаете отсюда кейген, устанавливаете по инструкции.

если на последнюю версию кейген не сработал, в этом же архиве версия постарее, на ней работает(если при запуске хочет обновиться, жмем нет).

User-agent задается: Configuration -> UserAgent -> Googlebot Regular <- валидный юзерагент, рекомендую его

p.s. если при сканировании пишет, что мало памяти, нужно отредактировать файл ScreamingFrogSEOSpider.l4j.ini внутри файла инструкция.

Программа крутая, по инструкции Вашей все получилось, единственный момент ссылки типа:

Для просмотра ссылки Войди или Зарегистрируйсяoffset_число
и такого плана:
Для просмотра ссылки Войди или Зарегистрируйсяindex.php?categoryID=225&offset=1&sort=customers_rating&direction=DESC

по маске в Exclude закрываю при новом скане не показывает, но когда вношу маски в robots.txt. и сканирую заново статус пишет ок, в чем может быть причина? Все другие, ненужные url'ы, без проблем, заблокировало.
 
Программа крутая, по инструкции Вашей все получилось, единственный момент ссылки типа:

Для просмотра ссылки Войди или Зарегистрируйсяoffset_число
и такого плана:
Для просмотра ссылки Войди или Зарегистрируйсяindex.php?categoryID=225&offset=1&sort=customers_rating&direction=DESC

по маске в Exclude закрываю при новом скане не показывает, но когда вношу маски в robots.txt. и сканирую заново статус пишет ок, в чем может быть причина? Все другие, ненужные url'ы, без проблем, заблокировало.

На такие параметры можно звездочки использовать.

различные варианты можете посмотреть здесь Для просмотра ссылки Войди или Зарегистрируйся


По поводу exclude, если после того, как роботс поменяли и запустили скан по новой, и все устраивает, то больше ничего делать и не надо. Это особенность программы, возможно в последней версии это поправили.
На всякий пожарный можно посмотреть как гуглбот, попробовать удалить устаревшую страницу из панели яндекса, или проверить на pagespeed. Насколько помню, там обязательно страница должна быть открыта или закрыта(в случае с удалением).
 
Доброго времени суток. Интересует следующее страниц у сайте с натяжкой 12к но Гугл и Яша показывают что в индексе 15к. Подскажите как обнаружить неизвестные страницы? Или где посмотреть подробную статистику сканирования по URL?
Мониторил вручную, искал дубли - ничего лишнего не нашел.
Заранее спасибо!
Рекомендую отличный софт для этих целей - Comparser.
Из условно-бесплатного (2 нед. демо), получить все страницы сайта поможет Netpeak Spider.
 
Возможно, в роботсе не закрыты служебные страницы или какой плагин создает дубли. В Яндекс Вебмастере можете сделать выгрузку таблицы урлов в поиске и там поглядеть с помощью фильтров.
 
Назад
Сверху