• DONATE to NULLED!
    Форуму и его команде можно помочь, мотивировать модераторов разделов.
    Помогите модератору этого раздела killoff лично.

Помощь Дублирование контента на DLE-сайте

Статус
В этой теме нельзя размещать новые ответы.

ksana

Полезный
Регистрация
15 Июл 2008
Сообщения
163
Реакции
15
у меня новый сайт на дле.
Сегодня посмотрела, что с него проиндексировал Google и пришла в ужас:

Категории доступны по адресам:

_http://sait.ru/news/
_http://sait.ru/news/page/2/
_http://sait.ru/news/page/3/
а также, _http://sait.ru/news/page/4/,5,6 и т.д.

Причем по всем этим ссылкам открывается одна и та же (первая) страница категории.

Записи открываются по ссылкам:

_http://sait.ru/news/231-vlasti-donecka-ustanovili-nalog-na-zhiluyu-nedvizhimost.html
_http://sait.ru/news/231-vlasti-donecka-ustanovili-nalog-na-zhiluyu-nedvizhimost.html#comment

Главная доступна по адресам:

_http://sait.ru/
_http://sait.ru/index.php
_http://sait.ru/index.php?action=mobile
_http://sait.ru/index.php?do=

Последние записи:

_http://sait.ru/lastnews
_http://sait.ru/index.php?do=lastnews
_http://sait.ru/lastnews/page/5/,6,7 и т.д.

Кроме этого, одни и те же анонсы новостей выводятся:

- на Главной
- в категориях
- в архивах по по дням
- в архивах по месяцам
- в архивах по годам
- в архивах по тегам.

В итоге имеем на сайте дублированный контент в громадном количестве.

Кроме того, в настройках сайта выставлены ЧПУ, но одна и та же страница открывается по адресу с ЧПУ и без него.

Даже не подозревала, что ДЛЕ настолько не не оптимизированный двиг и плодит столько дублей страниц.

Сайту 2 месяца, контент уникальный.

Гуглом проиндексирован полностью - в выдаче все, что есть на сайте.

Яндексом тоже проиндексирован - но в выдаче нет ни одной страницы.

Подозреваю, что причина заключается в дублированном контенте.

Отсюда, вопрос, что в ДЛЕ нужно закрыть от индексации, чтобы поисковики не находили ДК?
 
Всё что Вы описали, то и нужно закрывать)
Оставьте для индексации только то, что должно быть в поиске.
Могу привести свой пример robots.txt, а Вы у же допилите под себя:
User-agent: *
Disallow: /*print
Disallow: /user/
Disallow: /index.php?do=register
Disallow: /index.php?do=lastcomments
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=stats
Disallow: /index.php?do=pm
Disallow: /index.php?do=stats
Disallow: /index.php?do=search
Disallow: /index.php?do=addnews
Disallow: /index.php?subaction=newposts
Disallow: /page/
Disallow: /2010/
Disallow: /2011/
Disallow: /index.php*
Host: site.ru

С синтаксисом можно ознакомиться .
PS: под АГС сайт за дубли может попасть, но чтоб полностью выдернуло из выдачи это врядли. Скорее всего проблема ещё в чём-то. Яндекс со временем старается сам убирать лишние страницы из выдачи.
 
Спасибо. Я вообщем то так и сделала - выловила из выдачи Google все адреса, ведущие на дублированный страницы и закрыла их в pobots.txt.

Просто хотела удостоверится, что сделала все правильно.

Еще один вопрос по анонсам. Они выводятся:
- на Главной
- в категориях
- в архивах по по дням
- в архивах по месяцам
- в архивах по годам
- в архивах по тегам.

Где из лучше оставить, а где закрыть?

И по robots.txt:

Можно ли все, что ниже

PHP:
Disallow: /index.php?do=register
Disallow: /index.php?do=lastcomments
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=stats
Disallow: /index.php?do=pm
Disallow: /index.php?do=stats
Disallow: /index.php?do=search
Disallow: /index.php?do=addnews

заменить одной строкой:

PHP:
Disallow: /index.php?do=*

А как в robots.txt закрыть эти адреса:

_http://sait.ru/news/page/2/
_http://sait.ru/news/page/3/
_http://sait.ru/news/page/4/,5,6

и эти:

_http://sait.ru/lastnews
_http://sait.ru/lastnews/page/5/,6,7 и т.д.
 
Пожалуйста, кто в этом разбирается больше меня, помогите решить эту проблему.
 
Еще один вопрос по анонсам. Они выводятся:
- на Главной
- в категориях
- в архивах по по дням
- в архивах по месяцам
- в архивах по годам
- в архивах по тегам.

Вопрос лучше поставить так - нужны ли эти страницы в индексе и как скажется их исключение на перелинковку.

Желательно, организовать перелинковку так, чтобы к любой странице можно было добраться двумя переходами (УВ 3).

на счёт
Вы правы, просто последние строки дописал позже, когда начал замечать повылазившие дубли. В моём случае
перекрывает
Disallow: /index.php?do=register
Disallow: /index.php?do=lastcomments
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=stats
Disallow: /index.php?do=pm
Disallow: /index.php?do=stats
Disallow: /index.php?do=search
Disallow: /index.php?do=addnews

А как в robots.txt закрыть эти адреса:

_http://sait.ru/news/page/3/
_http://sait.ru/news/page/4/,5,6

и эти:

_http://sait.ru/lastnews
_http://sait.ru/lastnews/page/5/,6,7 и т.д.

Disallow: /news/page/*/
Disallow: /lastnews/
Disallow: /lastnews/page/*/
как-то так...
 
Dr.Sheff, спасибо, становится понятнее.
Вопрос лучше поставить так - нужны ли эти страницы в индексе и как скажется их исключение на перелинковку.
Желательно, организовать перелинковку так, чтобы к любой странице можно было добраться двумя переходами (УВ 3).

На главной можно выбрать в меню любую категорию, а попав на 1ю страницу категории, можно перейти на любую статью.
В категории, также, можно перейти на 2ю и все последующие страницы категории.

Так что, примерно так, как вы писали и получается.

Тогда, наверное, нужно оставить категории открытыми для индексирования, а все остальное закрыть?
Или лучше оставить открытыми _http://sait.ru/lastnews - т.е. последние новости, а категории закрыть?

Как вы считаете?
Что то я совсем потерялась с этими дублями

Если позволите, еще один вопрос - стоит ли закрывать от индексации страница тегов?
С одной стороны - по ним тоже какой трафик из поиска идет, а с другой - это дубли анонсов, которые уже есть в категориях.
К тому же, google почему то проиндексировал кучу тегов и гораздо меньше страниц с новостями.
 
Я бы оставил категории и , возможно, теги, если их немного(немного это меньше 5 на 1 новость) и они не авто сгенерированы.
 
у меня новый сайт на дле
<...>
Яндексом тоже проиндексирован - но в выдаче нет ни одной страницы.
Подозреваю, что причина заключается в дублированном контенте.

на сколько новый сайт ?
что Вы имеете ввиду под словами проиндексирован и выдаче?
Вы видите, что страницы сайта есть в индексе, но они не находятся по поисковым запросам?
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху