Дублированный контент в Гугле

Тема в разделе "Статьи и Co", создана пользователем Captain, 26 апр 2007.

Статус темы:
Закрыта.
  1. Captain

    Captain Мыслитель

    Регистр.:
    8 май 2006
    Сообщения:
    355
    Симпатии:
    174
    На последней конференции "Стратегии поисковых систем" в Чикаго было много вопросов о дублирующемся контенте. Мы признаем что есть много тонкостей и узких мест ( наших ошибок ) по работе с таким контентом, поэтому я бы хотел прояснить некоторые моменты:

    Почему Гугль заботится об оригинальности контента ?

    Наши пользователи обычно хотят видеть подборку различных сайтов ( или статей ) по своему запросу. Представляете каково будет разочарование если введя свой запрос человек увидит 10 одинаковых статей на разных сайтах на первой странице серпа? А вэбмастера еще ругают нас за то что страница вида example.com/contentredir?value=shorty-george=en может оказаться выше чем example.com/en/shorty-george.htm

    Что гугль делает с дублированным контентом ?

    В процессе индексации и ранжирования сайтов мы стараемся выбирать страницы с оригинальной информацией. Эти фильтры означают что если ваша статья на сайте есть в двух вариантах - "обычный" и "для печати" и один из них не заблокирован через robots.txt или через noindex то сохранен в индексе будет только один вариант статьи. В редких случаях, когда мы видим что дублирующийся контент находится на сайте с целью манипулировать результатами поиска - мы можем исключить такой сайт из серпа. Однако мы предпочитаем заниматься именно фильтрацией вместо удаления сайтов с дублированым контентом из выдачи. Поэтому в большинстве случаев худшее что может случиться с вашим сайтом это "более низкое" место в серпе.

    Как лучше распределять дублированный текст ?

    - Вместо того что бы предоставлять нашему роботу какую из копий текста выбрать ( т.е. обычную или "для принтера" и т.п. ). Блокируйте лишние копии через файл роботс

    - используйте 301 редирект если вы изменили структуру сайта ( с помощью .htaccess ).

    - Используйте полные ссылки, а не /page/ или /page или /page/index.htm

    - Используйте домены а не субдомены, также не забывайте что при ранжировании активно используется определение страны ( т.е. русскоязычным пользователям в первую очередь будут показаны домены .ru и т.п. )

    - Используйте RSS аккуратно, всегда следите что бы сайты которые импортируют ваши статьи ссылались на ваш сайт в КАЖДОЙ статье

    - Если на ваш сайт ссылаются как на "site.ru" так и на "www.site.ru" указываете КАКУЮ ИМЕННО версию сайта индексировать.

    - Минимизируйте повторяющиеся блоки текста на страницах, например если внизу или вверху каждой статьи вы в нескольких предложениях расписали запреты на копирование контента и т.п. , то лучшим решением будет вынести такой текст в отдельную страницу и поставить на нее ссылку во всех статьях.

    - Избегайте опубликования по алфавиту или например по странам в том случае если кликнув по одной из ссылок пользователь увидит пустой шаблон ( т.е. например нет у вас статей на букву Я, но ссылка на "Я" есть ). Пользователи не любят такие шутки, а мы работаем для пользователей.

    - Будьте "на ты" с вашей CMS , постарайтесь узнать все способы которыми дублируется контент ( например версия для печати, версия для мобильных, и т.п.)

    - "Не парься, будь счастлив" Не слишком беспокойтесь о дублировании или воровстве контента с вашего сайта, как правило гугль справляется с такими воришками без проблем. Если уж вас совсем достал какой-нибудь "ксерокс" обратитесь в http://www.google.com/dmca.html - они отправят нам запрос на удаление его из индекса.

    Оригинал статьи http://googlewebmastercentral.blogspot.com/2006/12/deftly-dealing-with-duplicate-content.html

    Русский перевод статьи http://blog.seotrade.ru/?p=12
     
Статус темы:
Закрыта.