Помощь robots.txt и templates

Тема в разделе "DLE", создана пользователем AlexSilver, 19 май 2009.

Информация :
Актуальная версия DataLife Engine 11.3
( Final Release v.11.3 | Скачать DataLife Engine | Скачать 11.3 demo )
Нужно ли обновляться | Как обновиться | Изменения в шаблонах
> Нет русских символов <
[Приватная тема DLE (Все подробности в ЛС к модератору раздела)]

Версии 11.2 и ниже - уязвимы!

Локализации | F.A.Q. | Внешний вид
Правила раздела | Правила форума
Обсуждение хайда карается баном!
В каждом сообщении указывайте версию DLE, которого они касаются!
Статус темы:
Закрыта.
Модераторы: killoff
  1. AlexSilver

    AlexSilver

    Регистр.:
    10 дек 2008
    Сообщения:
    170
    Симпатии:
    19
    Гуглил что надо закрывать robots.txt в DLE, постоянно в примерах натыкался на:
    ...
    /templates
    ...
    Возникает вопрос, почему ? Если например у меня там в block.php прописаны ссылки на статичные страницы сайта, получается он у меня их не проиндексирует? И где вообще находятся статичные страницы и сами новости в DLE?
     
  2. shamantc

    shamantc ЗлОй ШаМан

    Заблокирован
    Регистр.:
    3 ноя 2008
    Сообщения:
    651
    Симпатии:
    183
    Статические страницы и новости в БД забиты, юзай поиск
     
  3. AlexSilver

    AlexSilver

    Регистр.:
    10 дек 2008
    Сообщения:
    170
    Симпатии:
    19
    Искал и по этому форуму... Ну а как насчёт templates и ссылками ? И engine тоже смело можно запрещать?
     
  4. Hander

    Hander

    Регистр.:
    19 ноя 2007
    Сообщения:
    175
    Симпатии:
    45
    1. Создаем файл robots.txt

    2. Самая первая строчка будет выглядеть так: User-Agent: * (знак "*" говорит о том, что все написаные ниже правила будут действительны для всех роботов, но не забывайте, что тут возможны вариации с именами роботов и т.п., мы же создаём общие правила для всех.)

    3. Как правило при написании этого файла используется две команды: "Allow: (разрешить) и Disallow: (запретить)". Я начал с "Allow" (с чего начнете вы не принципиально и не будет ошибкой)
    Получилось следующее:
    Allow: /index.php
    Allow: /?do=cat&category=xxx
    Allow: /?do=cat&category=mobile
    Allow: /?do=cat&category=soft
    Allow: /?do=cat&category=patches
    Allow: /?do=cat&category=wallpapers
    Allow: /?do=cat&category=oldgames
    Allow: /?do=cat&category=serials
    Allow: /?do=cat&category=clips
    Allow: /?do=cat&category=magazines
    Allow: /?do=cat&category=games
    Allow: /?do=cat&category=movies
    Allow: /?do=cat&category=system
    Allow: /?do=cat&category=humour
    Allow: /?do=cat&category=others
    Allow: /?do=cat&category=mp3

    Поясню: сначала мы пишем команду на "Разрешить (Allow)", далее пишем свои адреса, в данном случае index.php (главная страница) и далее категории вашего сайта. Опять же тут могут быть вариации... думаю. что суть вы уловили

    4. Далее соответственно, пишем правила на запрет индексации ряда разделов вашего сайта, выглядеть это будет примерно так:
    Disallow: /statistics.html (запрет на индексирование статитстики сайта)
    Disallow: /?do=lastcomments (запрет на индексирование последних комментариев)
    Disallow: /?do=pm (запрет на индексирование личных сообщений)
    Disallow: /backup/
    Disallow: /language/
    Disallow: /templates/
    Disallow: /uploads/
    Disallow: /admin.php (запрет на индексирование админки сайта)
    Disallow: /user (запрет на индексирование страниц пользователей)

    5. После этих нехитрых манипуляций с файлом robots.txt, роботы поисковиков стали индексировать нужные мне разделы и новости моего сайта. Опять же повторюсь, что при написании этого файла возможна масса вариаций и вы должны написать его исключительно по свой сайт.

    Вот пример моего robots.txt (можете взять за основу его:(
    =====================

    User-Agent: *
    Allow: /index.php
    Allow: /?do=cat&category=xxx
    Allow: /?do=cat&category=mobile
    Allow: /?do=cat&category=soft
    Allow: /?do=cat&category=patches
    Allow: /?do=cat&category=wallpapers
    Allow: /?do=cat&category=oldgames
    Allow: /?do=cat&category=serials
    Allow: /?do=cat&category=clips
    Allow: /?do=cat&category=magazines
    Allow: /?do=cat&category=games
    Allow: /?do=cat&category=movies
    Allow: /?do=cat&category=system
    Allow: /?do=cat&category=humour
    Allow: /?do=cat&category=others
    Allow: /?do=cat&category=mp3
    Disallow: /statistics.html
    Disallow: /?do=lastcomments
    Disallow: /?do=pm
    Disallow: /backup/
    Disallow: /language/
    Disallow: /templates/
    Disallow: /uploads/
    Disallow: /admin.php
    Disallow: /user
     
  5. E-body

    E-body

    Регистр.:
    6 сен 2007
    Сообщения:
    983
    Симпатии:
    320
    Не правильное составление robots.txt
    User-Agent: *
    Allow: /index.php
    Allow: /?do=cat&category=xxx
    Allow: /?do=cat&category=mobile
    Allow: /?do=cat&category=soft
    Allow: /?do=cat&category=patches
    Allow: /?do=cat&category=wallpapers
    Allow: /?do=cat&category=oldgames
    Allow: /?do=cat&category=serials
    Allow: /?do=cat&category=clips
    Allow: /?do=cat&category=magazines
    Allow: /?do=cat&category=games
    Allow: /?do=cat&category=movies
    Allow: /?do=cat&category=system
    Allow: /?do=cat&category=humour
    Allow: /?do=cat&category=others
    Allow: /?do=cat&category=mp3
    Disallow: /statistics.html
    Disallow: /?do=lastcomments
    Disallow: /?do=pm
    Disallow: /backup/
    Disallow: /language/
    Disallow: /templates/
    Disallow: /uploads/
    Disallow: /admin.php
    Disallow: /user

    Что писать в файл robots.txt

    В файл robots.txt обычно пишут нечто вроде:
    HTML:
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /~joe/ 
    В этом примере запрещена индексация трех директорий.


    Затметьте, что каждая директория указана на отдельной строке – нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.

    Регулярные выражения и символы подстановки так же нельзя использовать. «Звездочка» (*) в инструкции User-agent означает «любой робот». Инструкции вида «Disallow: *.gif» или «User-agent: Ya*" не поддерживаются.


    Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации. Вот несколько примеров:
    Запретить весь сайт для индексации всеми роботами
    HTML:
    User-agent: *
    Disallow: / 
    Разрешить всем роботам индексировать весь сайт
    HTML:
    User-agent: *
    Disallow: 
    Или можете просто создать пустой файл «/robots.txt».
    Закрыть от индексации только несколько каталогов
    HTML:
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /private/ 
    Запретить индексацию сайта только для одного робота
    HTML:
    User-agent: BadBot
    Disallow: / 
    Разрешить индексацию сайта одному роботу и запретить всем остальным
    HTML:
    User-agent: Yandex
    Disallow:
    
    User-agent: *
    Disallow: / 
    Запретить к индексации все файлы кроме одногo
    Это довольно непросто, т.к. не существует инструкции “Allow”. Вместо этого можно переместить все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретить ее индексацию:
    HTML:
    User-agent: *
    Disallow: /docs/ 
    Либо вы можете запретить все запрещенные к индексации файлы:
    HTML:
    User-agent: *
    Disallow: /private.html
    Disallow: /foo.html
    Disallow: /bar.html
    _http://www.yandex.ru/robots.txt (как пример)
    _http://www.google.ru/robots.txt (что за параметр Sitemap: :eek: )
     
  6. raven4eg

    raven4eg Бесяцая птича

    Регистр.:
    14 дек 2007
    Сообщения:
    148
    Симпатии:
    19
    у гугла, судя по содержанию, роботс.тхт заточен под ихнего же робота и видимо тот понимает такую директиву, как сайтмап, ибо там реально приведены ссылки на карту сайта.
     
  7. AlexSilver

    AlexSilver

    Регистр.:
    10 дек 2008
    Сообщения:
    170
    Симпатии:
    19
    Точно, с Allow писать не верно... Так кто нибудь сможет ответить на вопрос, почему в DLE убирают индексацию temlates, ведь именно там прописывают куча ссылок по всему сайту. Лично у меня там больше 60 ссылок на статические страницы сайта. Но всё равно убирают. Конечно понятно что там куча хлама вроде css и другого, но всё же ?

    raven4eg не только для гугла прописывают.

    http://4dle.ru/robots.txt
     
  8. master6681

    master6681

    Регистр.:
    17 дек 2006
    Сообщения:
    577
    Симпатии:
    124
    Вот как раз что хлам вроде css не индексировался и закрывают все что не нужно для поисковика. Не пойму я про какие ссылки вы говорите. У меня тоже куча ссылок в main.tpl лежит. Это не значит что при закрытии /templates они не будут индексироваться.
     
  9. AlexSilver

    AlexSilver

    Регистр.:
    10 дек 2008
    Сообщения:
    170
    Симпатии:
    19
    Как я понимаю если в роботс прописано Disallow:/templates/ - то всё что находится в этой папке, включая и main.tpl будет обходиться поисковыми роботами. Как оно будет индексироваться ? Тогда можно и все папки прописать в роботс.тхт, если они будут индексироваться... :) :nezn:
     
  10. vbnm070

    vbnm070

    Регистр.:
    13 май 2008
    Сообщения:
    370
    Симпатии:
    193
    Как это нету, читай
    Перейти по ссылке
    Перейти по ссылке
     
Статус темы:
Закрыта.