Помощь Robots.txt для Dle. Делаем правильно. Да будет сайт проиндексирован., Посвящается все

Тема в разделе "DLE", создана пользователем adamsadriane, 10 июл 2009.

Информация :
Актуальная версия DataLife Engine 12.0
( Final Release v.12.0 | Скачать DataLife Engine | Скачать 12.0 demo )
Нужно ли обновляться | Как обновиться | Изменения в шаблонах
> Нет русских символов <
[Приватная тема DLE (Все подробности в ЛС к модератору раздела)]

Версии 11.3 и ниже - уязвимы!

Локализации | F.A.Q. | Внешний вид
Правила раздела | Правила форума
Обсуждение хайда карается баном!
В каждом сообщении указывайте версию DLE, которого они касаются!
Статус темы:
Закрыта.
Модераторы: killoff
  1. adamsadriane

    adamsadriane Постоялец

    Регистр.:
    27 мар 2008
    Сообщения:
    62
    Симпатии:
    10
    В связи с большим количеством вопросов по правильной индексации сайтов на основе DLE, выкладываю правила для создания robots.txt для DLE.
    Создание robotx.txt для dle.
    Ситуация:
    Яндекс индексирует страницы для печати (print:...) и, со временем, выбрасывает новости, для которых соответствуют страницы для печати.
    Результат:
    Со временем сайт в поисковом индексе представляет собой почти сплошное собрание страниц для печати.
    Проблема:
    Для бирж ссылок трудно продать ссылки с этих страниц.
    Решение:
    Запрещаем страницы для печати:
    User-agent: *
    Disallow: /*print
    Ситуация:
    Индексируются страницы /user/. Спамеры "толкают" страницы на их профили т.к. последние содержат внешние ссылки (спам).
    Результат:
    Передаются ненужные Вам веса спамерским ссылкам.
    Решение:
    Запрещаем /user/:
    Disallow: /*print
    Ситуация:
    Индексируются страницы, не содержащие контент.
    Результат:
    Всё равно выпадут со временем, лишняя нагрузка на поискового робота, ненужные директивы.
    Решение:
    Запрещаем подобные директории:
    Disallow: /backup/
    Disallow: /engine/
    Disallow: /language/
    Disallow: /templates/
    Disallow: /upgrade/
    Disallow: /uploads/
    Disallow: /autobackup.php
    Disallow: /admin.php
    Ситуация:
    Индексируются страницы вида: */index.php?do=*
    Результат:
    Никакой пользы для сайта не принесут.
    Решение:
    Запрещаем все такие страницы, а также страницу /index.php?subaction=newposts и /?do=lastcomments. Ну и статистику не мешало бы убрать (Disallow: /statistics.html:(
    Disallow: /index.php?do=addnews
    Disallow: /index.php?do=feedback
    Disallow: /index.php?do=lostpassword
    Disallow: /index.php?do=pm
    Disallow: /index.php?do=register
    Disallow: /index.php?do=stats
    Disallow: /index.php?do=search
    Disallow: /index.php?subaction=newposts
    Disallow: /?do=lastcomments
    Disallow: /statistics.html
    Не лишним будет напомнить, что нужно обязательно создавать карту сайта в админ панели.
    Карта сайта будет находится по адресу: Ваш_сайт/sitemap.xml
    Далее явно задаём местонахождение нашей карты сайта в robots.txt:
    Sitemap: Ваш_сайт/sitemap.xml
    Явно задаём хост.
    Host: Ваш_сайт
    Nota bene!: Если иметь много сайтов на одном аккаунте хостинга, на некоторых панелях хостинга (hsphere, directadmin) из-за отсутствия задания хоста может возникнуть склеивание всех сайтов в виде заркал для сайта, идущего первым по алфавиту. Поэтому хост берём за правило прописывать явно.
    Nota bene 2!: Задаём хост, учитывая что:
    # Ваш_сайт является главным зеркалом www.Ваш_сайт,
    # тогда корректное использование директивы Host такое
    User-Agent: *
    Disallow:
    Host: Ваш_сайт
    Подводим итог и выводим общий вид универсального robots.txt для сайта на CMS DLE:
    Код:
    User-agent: *
    Disallow: /*print
    Disallow: /user/
    Disallow: /backup/
    Disallow: /engine/
    Disallow: /language/
    Disallow: /templates/
    Disallow: /upgrade/
    Disallow: /uploads/
    Disallow: /autobackup.php
    Disallow: /admin.php
    Disallow: /index.php?do=addnews
    Disallow: /index.php?do=feedback
    Disallow: /index.php?do=lostpassword
    Disallow: /index.php?do=pm
    Disallow: /index.php?do=register
    Disallow: /index.php?do=stats
    Disallow: /index.php?do=search
    Disallow: /index.php?subaction=newposts
    Disallow: /?do=lastcomments
    Disallow: /statistics.html
    Host: Ваш_сайт
    Sitemap: http://Ваш_сайт/sitemap.xml
    PS: в зависимости от дефолтных папок, присутствующих в разных панелях хостинга (в частности, папка cgi-bin), а также папок, добавляемых по собственной необходимости, не забываем их вписывать.
    Вставляйте в каждый из Ваших сайтов, не ленитесь и всё у Вас будет хорошо.
     
    Fader и grixann нравится это.
  2. Shotlandec

    Shotlandec

    Регистр.:
    17 сен 2007
    Сообщения:
    728
    Симпатии:
    162
    особенно для сапы это бесполезно :ay:
    Не пудрите людям мозг. Или пишите подробнее.
    Для тех кто не понял, если вы запретите эти страницы, то и в сапе вы меньше заработаете.

    если Вы не в курсе, то на некоторых биржах очень хорошо страницы для печати расходятся (где конкретно говорить не буду, что бы рекламы не было, ад и просто что бы не палить, ищите сами :)).
    И вообще, данный файл надо делать с умом, если белый проект, то одни настройки, если не очень, то другие. Таким образом, первоначально надо читать что из себя представляет данный файл, а уж потом использовать. А то получится, что кто-то зеленый тупо скопирует, что вы написали, а потом будет недоумевать почему у него что-то не так.
     
    grixann нравится это.
  3. grixann

    grixann

    Регистр.:
    8 фев 2009
    Сообщения:
    443
    Симпатии:
    41
    А и вправду обясните по подробнее что из себя представляет этот
    файл и как им пользоваться
    вот у меня проект
    как правильно для него составить этот файл , что закрывать от индикации а что оставлять открытым ?
     
  4. Mons

    Mons

    Регистр.:
    2 апр 2006
    Сообщения:
    1.590
    Симпатии:
    917
    Изучать перед сном.
     
    antiterror и grixann нравится это.
Статус темы:
Закрыта.