Помощь Дублирование контента на DLE-сайте

Тема в разделе "DLE", создана пользователем ksana, 30 апр 2011.

Информация :
Актуальная версия DataLife Engine 11.2
( Final Release v.11.2 | Скачать DataLife Engine | Скачать 11.2 demo )
Нужно ли обновляться | Как обновиться | Изменения в шаблонах
> Нет русских символов <
[Приватная тема DLE (Все подробности в ЛС к модератору раздела)]

Версии 11.1 и ниже - уязвимы!

Локализации | F.A.Q. | Внешний вид
Правила раздела | Правила форума
Обсуждение хайда карается баном!
В каждом сообщении указывайте версию DLE, которого они касаются!
Статус темы:
Закрыта.
Модераторы: killoff
  1. ksana

    ksana

    Регистр.:
    15 июл 2008
    Сообщения:
    160
    Симпатии:
    15
    у меня новый сайт на дле.
    Сегодня посмотрела, что с него проиндексировал Google и пришла в ужас:

    Категории доступны по адресам:

    _http://sait.ru/news/
    _http://sait.ru/news/page/2/
    _http://sait.ru/news/page/3/
    а также, _http://sait.ru/news/page/4/,5,6 и т.д.

    Причем по всем этим ссылкам открывается одна и та же (первая) страница категории.

    Записи открываются по ссылкам:

    _http://sait.ru/news/231-vlasti-donecka-ustanovili-nalog-na-zhiluyu-nedvizhimost.html
    _http://sait.ru/news/231-vlasti-donecka-ustanovili-nalog-na-zhiluyu-nedvizhimost.html#comment

    Главная доступна по адресам:

    _http://sait.ru/
    _http://sait.ru/index.php
    _http://sait.ru/index.php?action=mobile
    _http://sait.ru/index.php?do=

    Последние записи:

    _http://sait.ru/lastnews
    _http://sait.ru/index.php?do=lastnews
    _http://sait.ru/lastnews/page/5/,6,7 и т.д.

    Кроме этого, одни и те же анонсы новостей выводятся:

    - на Главной
    - в категориях
    - в архивах по по дням
    - в архивах по месяцам
    - в архивах по годам
    - в архивах по тегам.

    В итоге имеем на сайте дублированный контент в громадном количестве.

    Кроме того, в настройках сайта выставлены ЧПУ, но одна и та же страница открывается по адресу с ЧПУ и без него.

    Даже не подозревала, что ДЛЕ настолько не не оптимизированный двиг и плодит столько дублей страниц.

    Сайту 2 месяца, контент уникальный.

    Гуглом проиндексирован полностью - в выдаче все, что есть на сайте.

    Яндексом тоже проиндексирован - но в выдаче нет ни одной страницы.

    Подозреваю, что причина заключается в дублированном контенте.

    Отсюда, вопрос, что в ДЛЕ нужно закрыть от индексации, чтобы поисковики не находили ДК?
     
  2. Dr.Sheff

    Dr.Sheff

    Регистр.:
    20 ноя 2010
    Сообщения:
    175
    Симпатии:
    26
    Всё что Вы описали, то и нужно закрывать)
    Оставьте для индексации только то, что должно быть в поиске.
    Могу привести свой пример robots.txt, а Вы у же допилите под себя:
    С синтаксисом можно ознакомиться тут.
    PS: под АГС сайт за дубли может попасть, но чтоб полностью выдернуло из выдачи это врядли. Скорее всего проблема ещё в чём-то. Яндекс со временем старается сам убирать лишние страницы из выдачи.
     
    ksana нравится это.
  3. ksana

    ksana

    Регистр.:
    15 июл 2008
    Сообщения:
    160
    Симпатии:
    15
    Спасибо. Я вообщем то так и сделала - выловила из выдачи Google все адреса, ведущие на дублированный страницы и закрыла их в pobots.txt.

    Просто хотела удостоверится, что сделала все правильно.

    Еще один вопрос по анонсам. Они выводятся:
    - на Главной
    - в категориях
    - в архивах по по дням
    - в архивах по месяцам
    - в архивах по годам
    - в архивах по тегам.

    Где из лучше оставить, а где закрыть?

    И по robots.txt:

    Можно ли все, что ниже

    PHP:
    Disallow: /index.php?do=register
    Disallow
    : /index.php?do=lastcomments
    Disallow
    : /index.php?do=feedback
    Disallow
    : /index.php?do=lostpassword
    Disallow
    : /index.php?do=stats
    Disallow
    : /index.php?do=pm
    Disallow
    : /index.php?do=stats
    Disallow
    : /index.php?do=search
    Disallow
    : /index.php?do=addnews
    заменить одной строкой:

    PHP:
    Disallow: /index.php?do=*
    А как в robots.txt закрыть эти адреса:

    _http://sait.ru/news/page/2/
    _http://sait.ru/news/page/3/
    _http://sait.ru/news/page/4/,5,6

    и эти:

    _http://sait.ru/lastnews
    _http://sait.ru/lastnews/page/5/,6,7 и т.д.
     
  4. yavasilek

    yavasilek vasilek_gorbunok

    Регистр.:
    5 окт 2008
    Сообщения:
    1.175
    Симпатии:
    423
  5. ksana

    ksana

    Регистр.:
    15 июл 2008
    Сообщения:
    160
    Симпатии:
    15
    Ага, а пока посидеть в бане у Яндекса.
     
  6. ksana

    ksana

    Регистр.:
    15 июл 2008
    Сообщения:
    160
    Симпатии:
    15
    Пожалуйста, кто в этом разбирается больше меня, помогите решить эту проблему.
     
  7. Dr.Sheff

    Dr.Sheff

    Регистр.:
    20 ноя 2010
    Сообщения:
    175
    Симпатии:
    26
    Вопрос лучше поставить так - нужны ли эти страницы в индексе и как скажется их исключение на перелинковку.

    Желательно, организовать перелинковку так, чтобы к любой странице можно было добраться двумя переходами (УВ 3).

    на счёт
    Вы правы, просто последние строки дописал позже, когда начал замечать повылазившие дубли. В моём случае
    перекрывает
    как-то так...
     
    ksana нравится это.
  8. ksana

    ksana

    Регистр.:
    15 июл 2008
    Сообщения:
    160
    Симпатии:
    15
    Dr.Sheff, спасибо, становится понятнее.
    На главной можно выбрать в меню любую категорию, а попав на 1ю страницу категории, можно перейти на любую статью.
    В категории, также, можно перейти на 2ю и все последующие страницы категории.

    Так что, примерно так, как вы писали и получается.

    Тогда, наверное, нужно оставить категории открытыми для индексирования, а все остальное закрыть?
    Или лучше оставить открытыми _http://sait.ru/lastnews - т.е. последние новости, а категории закрыть?

    Как вы считаете?
    Что то я совсем потерялась с этими дублями

    Если позволите, еще один вопрос - стоит ли закрывать от индексации страница тегов?
    С одной стороны - по ним тоже какой трафик из поиска идет, а с другой - это дубли анонсов, которые уже есть в категориях.
    К тому же, google почему то проиндексировал кучу тегов и гораздо меньше страниц с новостями.
     
  9. Dr.Sheff

    Dr.Sheff

    Регистр.:
    20 ноя 2010
    Сообщения:
    175
    Симпатии:
    26
    Я бы оставил категории и , возможно, теги, если их немного(немного это меньше 5 на 1 новость) и они не авто сгенерированы.
     
  10. gruppastimul

    gruppastimul Ваш

    Регистр.:
    22 окт 2006
    Сообщения:
    802
    Симпатии:
    130
    на сколько новый сайт ?
    что Вы имеете ввиду под словами проиндексирован и выдаче?
    Вы видите, что страницы сайта есть в индексе, но они не находятся по поисковым запросам?
     
Статус темы:
Закрыта.