Поиск страниц выпавших из линковки

Тема в разделе "Поисковые машины", создана пользователем reboRn, 5 ноя 2015.

Модераторы: jabbaxatt, Sorcus
  1. reboRn

    reboRn

    Регистр.:
    19 июл 2007
    Сообщения:
    278
    Симпатии:
    13
    Подскажите пожалуйста, чет не могу сообразить.
    Есть сайт со определенным количеством страниц проиндексированных. Делали изменения, часть страниц выпало из линковки, то есть попасть со страниц сайта на них нельзя. Как выяснить какие страницы выпали из линковки?
    Самый простой казалось бы вариант, сравнить разницу между количеством страниц залинкованных (парсил через xenu) и поисковым индексом. В связи с этим вопрос:
    1)как быстро получисть список проиндексированных страниц для обработки
    2)есть ли еще метод выделить "подвешенные" не перелинкованные страницы

    Вебмастер не все страницы показывает.
     
    Последнее редактирование модератором: 12 ноя 2015
  2. idvortsov

    idvortsov Писатель

    Регистр.:
    9 ноя 2015
    Сообщения:
    5
    Симпатии:
    1
    Посмотреть список проиндексированных страниц можно в личном кабинете метрика.яндекс, если у вас есть права администратора сайта.
     
  3. reboRn

    reboRn

    Регистр.:
    19 июл 2007
    Сообщения:
    278
    Симпатии:
    13
    по подробнее, где там можно весь список посмотреть?
     
  4. reboRn

    reboRn

    Регистр.:
    19 июл 2007
    Сообщения:
    278
    Симпатии:
    13
    Нашел хороший способом как выдрать полный индекс сайта:
    итак сложности:
    1)вебмастер показывает максимум 1000 страницы
    2)вебмастер не учитывает разделы которые меньше 1% от общей структуры
    3)выдача яндекса не показывает больше 1000 запросов

    В связи с этим решил подойди к вопросу не напрямую а именно показывать в выдаче не весь индекс сайта а каких-то отдельных категорий

    На примере одного из сайтов выяснил по вебмастеру какие категории самые крупные и сформировал запрос к яндексу сначала для них:

    url:http://www.сайт.ru* -(/категория1/*) -(/категория2/*)
    получаем индекс сайта без учета категория1 и категория2
    полчил около 600 ответов

    далее получаем индекс по каждой из категорий

    url:http://www.сайт.ru/категория1/*
    и
    url:http://www.сайт.ru/категория2/*
    вуаля получаем списки индекса по каждой из категорий которые укладываются тоже в лимит 1000 позиций

    для автоматизации процесса подойдет обычный парсер которому скармливаем три этих запроса
    складываем получившиеся списки, убираем дубли и вуаля имеем полный список урлов в индексе на момент рабочего апдейта
    (можно сравнить с индеском из линкпада или генерированного списка от Ксэну или СкримингФрога)
    Таким образом получим урлы выпавших из перелинковки страниц, но которые в индексе.
     
  5. Dimitar Vladev

    Dimitar Vladev Писатель

    Регистр.:
    2 авг 2016
    Сообщения:
    10
    Симпатии:
    0
    Like he said

    1)вебмастер показывает максимум 1000 страницы
    2)вебмастер не учитывает разделы которые меньше 1% от общей структуры
    3)выдача яндекса не показывает больше 1000 запросов
     
  6. kerega

    kerega Писатель Нарушитель

    Регистр.:
    18 окт 2016
    Сообщения:
    5
    Симпатии:
    0
    Если у вас есть sitemap.xml со скормите его xenu или seo frog - и посмотрите на какие страницы нет ссылок.
     
  7. ganzalez

    ganzalez Создатель

    Регистр.:
    3 апр 2009
    Сообщения:
    42
    Симпатии:
    3
    А можно, без костылей решить данную задачу при помощи софта comparser от алаева.