Гугл и 10млн "Обнаружена, не проиндексирована"

Тема в разделе "Поисковые машины", создана пользователем borodatych, 10 апр 2019.

Метки:
Модераторы: Sorcus
  1. borodatych

    borodatych Постоялец

    Регистр.:
    24 июн 2016
    Сообщения:
    131
    Симпатии:
    80
    Здравствуйте!

    Есть 10млн+ ссылок вида: site.ru/items/brand/number
    Запрос в гуглу: site:site.ru items
    Показывает около 600 тысяч из десяти-то плюс миллионов!

    Вычитал какое-то соотношение полезного текста к коду
    На проверенных мною вот сегодня страницах, текст колеблется от 14% до 15%

    Беру одну из страниц, что обнаружена и не в индексе, к примеру:
    site.ru/items/brand_34/number_63

    Ищу в гугле: brand_34 number_63

    Открывают первых конкурентов, все ниже 2%, один даже 0.14%
    Отсюда можно сделать вывод, что это не главное?!
    ....или этот сайт это не правильно делает

    Связка brand+number не повторяется и контент свой по этой связке, тоже не повторяется
    Подскажите куда копать?

    Спасибо.
     
  2. Anton

    Anton ¯\_(ツ)_/¯

    Moderator
    Регистр.:
    28 авг 2007
    Сообщения:
    697
    Симпатии:
    684
    Копать в сторону общего траста сайта, то есть в данном случае - больше качественных ссылок.
     
  3. prefer

    prefer

    Регистр.:
    12 май 2016
    Сообщения:
    415
    Симпатии:
    87
    А какое кол-во выдает запрос site:site.ru ?
     
  4. borodatych

    borodatych Постоялец

    Регистр.:
    24 июн 2016
    Сообщения:
    131
    Симпатии:
    80
     
  5. borodatych

    borodatych Постоялец

    Регистр.:
    24 июн 2016
    Сообщения:
    131
    Симпатии:
    80
    Позвольте еще чуток данных и размышлений, может тут кроется ответ, я просто не на этом специализируюсь.
    Индекс доходил до 3-4 млн, мы во сне подпрыгивали и улыбались от посещения с таких страниц.

    Но в один прекрасный момент, все полетело, и я начал изучать ситуацию.
    Как выяснилось, на подобным страницах есть изображения, которые были запрещены в robots.txt
    Не спрашивайте почему, не помню, для чего-то делал, сглупил, недоконтролил.

    Есть несколько 1-2 тысяч страниц с кривым номером, и такие страницы в ошибках, но это мелочь с 10 млн нормальных.
    Может это помешать гуглу индексировать, мол а зачем, вы еще ошибки не исправили?

    Обнаружена, не проиндексирована
    9 673 278

    Страница просканирована, но пока не проиндексирована
    468 627

    Заблокировано в файле robots.txt
    24 963

    Страница с переадресацией
    14 721

    Ошибка сканирования
    8 005

    Страница является копией. Канонический вариант не выбран пользователем.
    2 905

    Страница является копией. Отправленный URL не выбран в качестве канонического.
    1 676

    Ошибка 404
    1 591

    Не найдено (404)
    11
    Я пока на всё что ниже первой строки не обращаю должного внимания, так как основная масса именно тут.
    Или такой подход не правильный и всё взаимосвязанно?
     
  6. Anton

    Anton ¯\_(ツ)_/¯

    Moderator
    Регистр.:
    28 авг 2007
    Сообщения:
    697
    Симпатии:
    684
    Сколько трафа на сайте?
    Ну не будет гугл в выдаче держать кучу страниц одинаковых, без контента. Не те времена.
     
  7. latteo

    latteo Эффективное использование PHP, MySQL

    Moderator
    Регистр.:
    28 фев 2008
    Сообщения:
    1.612
    Симпатии:
    1.541
     
    borodatych нравится это.
  8. borodatych

    borodatych Постоялец

    Регистр.:
    24 июн 2016
    Сообщения:
    131
    Симпатии:
    80
    От 3к до 7к в день - этого достаточно что бы взять в работу наши 10 млн подготовленных ссылок?

    Еще дополню:
    Так как ссылок 10млн+, то они сделаны в виде текстовых файлов по 5к ссылок в каждом.
    Естественно gz-ипнуты, хотя не знаю можно ли по другому и как лучше.

    sitemap выглядит так:
    HTML:
    <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
        <sitemap>
          <loc>https://site.ru/sitemaps/offices.xml</loc>
          <lastmod>2018-11-30T11:42:52+03:00</lastmod>
       </sitemap>
       <sitemap>
          <loc>https://site.ru/sitemaps/statics.xml</loc>
          <lastmod>2018-11-30T11:42:52+03:00</lastmod>
       </sitemap>
       <sitemap>
          <loc>https://site.ru/sitemaps/sitemap1.txt.gz</loc>
          <lastmod>2018-11-30T11:42:52+03:00</lastmod>
       </sitemap>
       ...
       <sitemap>
          <loc>https://site.ru/sitemaps/sitemapN.txt.gz</loc>
          <lastmod>2018-11-30T11:42:52+03:00</lastmod>
       </sitemap>
    </sitemapindex>
    
    Если обратили внимание, отсутствует changefreq, добавить или в нашем случаем не в этом гвоздь?
    Опять же как добавлять, не будет же гугл каждый месяц по 10млн записей проходить.
    Если сделать год, тогда смысл, он еще старые не обработал....
     
    Последнее редактирование: 11 апр 2019
  9. Anton

    Anton ¯\_(ツ)_/¯

    Moderator
    Регистр.:
    28 авг 2007
    Сообщения:
    697
    Симпатии:
    684
    7 лямов поискового трафа в день, ничего не перепутали? Это что за тематика, адалт?
    Это серьезно?

    Я бы нихрена не делал с сайтом чтоб не сделать хуже.
     
  10. borodatych

    borodatych Постоялец

    Регистр.:
    24 июн 2016
    Сообщения:
    131
    Симпатии:
    80
    Ой, невнимательность, тысяч, епрст
    Заострился на тех своих миллионах.....