Хочется поговорить о правильном robots.txt

Тема в разделе "Вопросы новичков", создана пользователем Skyfair, 20 май 2013.

Статус темы:
Закрыта.
  1. Skyfair

    Skyfair Постоялец

    Регистр.:
    27 мар 2013
    Сообщения:
    63
    Симпатии:
    14
    Я немного полопатил раздел нуля про SEO, и, к своему удивлению, мало чего нашел про настройку robots.txt
    Прямо чтобы от и до. Я запустил 2 новых сайта на joomla 2.5, и не очень-то много нарыл в интернете про настройку этого чудо-файла.
    Собственно, у меня как-то все слишком просто выглядит:
    User-agent: *
    Disallow: /administrator/
    Disallow: /cache/
    Disallow: /cli/
    Allow: /components/com_virtuemart/
    Disallow: /components/
    Allow: /images/stories/virtuemart/
    Disallow: /images/
    Disallow: /includes/
    Disallow: /language/
    Disallow: /libraries/
    Disallow: /logs/
    Disallow: /media/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /templates/
    Disallow: /tmp/
    Sitemap: http://домен.ru/index.php?option=com_acesef&view=sitemap&format=xml
    User-agent: Yandex
    Disallow: /administrator/
    Disallow: /cache/
    Disallow: /cli/
    Allow: /components/com_virtuemart/
    Disallow: /components/
    Allow: /images/stories/virtuemart/
    Disallow: /images/
    Disallow: /includes/
    Disallow: /language/
    Disallow: /libraries/
    Disallow: /logs/
    Disallow: /media/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /templates/
    Disallow: /tmp/
    Host: домен.ru
    Sitemap: http://домен.ru/index.php?option=com_acesef&view=sitemap&format=xml

    Для сравнения попросил недавно знакомого с успешным интернет-магазином на Opencart прислать свой robots. Так я даже не понял, о чем там! И встревожился...
    Соответственно, у меня предложение и просьба - давайте разберем, кто, что и как добавляет в файл, пусть даже на разных CMS.
    Про свои изменения могу сказать лишь, что их совсем немного:
    - добавлен Host: домен.ru для Яндекса
    - отдельно разрешен доступ в компонент VirtueMart
    - отдельно разрешен доступ к папке, где лежат картинки товаров, для их индексации.
    - понятное дело, прописана карта сайта.
     
  2. White_S

    White_S

    Регистр.:
    27 май 2009
    Сообщения:
    474
    Симпатии:
    95
    Не работал я с этим двигом, но меня смутила запись
    Код:
    Disallow: /installation/
    . Это что установочная папка, а ее не надо удалять? Если надо было и вы этого не сделали - то ошибка двойная, т.к. таким файлом robots.txt вы еще сообщаете всему миру о том что такая папка у вас есть. Вообще файл этот призван скрывать от индексации все что может быть проиндексировано, и если есть папки извне недоступные, которые поисковики и найти не могут, я бы не стал указывать их в роботсе. Вобщем и изображения могут нормально индексироваться без этих извращений. Это мое мнение. скрывать надо страницы с неуникальным (не всегда), дублированным (всегда) контентом, всякие пустышки и т.п.
     
  3. Localut

    Localut Деда Мороз

    Регистр.:
    13 фев 2009
    Сообщения:
    224
    Симпатии:
    81
    Добавлю, что обычно в ИМ закрывают фильтры и сортировки т.к. по сути контент один просто в разном порядке. И конструкции там вида /sort=*&* и т.д. т.п. Если что то не понятно конкретно по роботсу опенкарта, выложи разберём.
     
  4. Skyfair

    Skyfair Постоялец

    Регистр.:
    27 мар 2013
    Сообщения:
    63
    Симпатии:
    14
    Ну да, папки installation, конечно, давно нет. Удалил ее и из роботса.
    Было бы неплохо и мне закрыть дублирующийся контент. Так об этом и речь!
    И как это сделать можно для Joomla?
    Отдельный вопрос про изображения - хочу подчеркнуть - кто как считает, индексируются они с закрытой папкой image или нет? По идее, они же должны индексироваться через страницу продукта.... Или для поисковиков обязательна их индексация по прямым ссылкам?
    Спрашиваю потому, что у меня на одном из сайтов уникальные фотографии, закрытые водяными знаками, и я, вообще, очень рассчитываю на них в плане НЧ запросов. Пока (сайту 3 недели) результата никакого ни по Яндексу, ни по Гуглу.
     
  5. White_S

    White_S

    Регистр.:
    27 май 2009
    Сообщения:
    474
    Симпатии:
    95
    Чтобы закрыть дублирующий контент, запишите регулярное выражение в роботс, например если все сортировки имеют в своем урле "sort=" то в роботс запись "disallow: *sort=*" закроет весь дублированный сортировочный контент. В яндекс вебмастере довольно подробно написано об этом. Вот движуха с фотками мне не понятна, зачем папку с изображениями скрывать или открывать для индексации, что ожидается от такой директивы? Паук не будет искать в папке картинки на которые нет никаких ссылок нигде. Я считаю что папка с картинками должна быть открыта для индексации по прямым ссылкам, и даже если картинка перестала использоваться на сайте, удалять ее из папки этой не надо, мое мнение - "все что есть в индексе - пускай живет вечно". для того чтоб трафик на картинки по н.ч. был, надо картинки эти называть релевантно и прописывать релевантные атрибуты, у меня даже на совсем неуникальные картинки есть трафик благодаря этому.
     
    Skyfair нравится это.
  6. Skyfair

    Skyfair Постоялец

    Регистр.:
    27 мар 2013
    Сообщения:
    63
    Симпатии:
    14
    Таким образом, есть совет полностью удалить поля Disallow для всех изображений на сайте? Кроме графики шаблона, естественно?
    Убрать обе строчки?
    Allow: /images/stories/virtuemart/
    Disallow: /images/
    В принципе, в папке images в Joomla всегда лежит разная графика, которая вставляется, скажем, в статьи или модули. Почему бы ее не индексировать...
    И еще не совсем про robots, но раз уж зашел разговор про картинки - я считаю, что в каждой должен быть заполнен titile, alt и, желательно, description, хотя он влияет только на сниппет.
    Так вот какие вопросы по заполнению полей у меня имеются:
    1. должны ли title и alt совпадать или обязательно различаться.
    2. должно ли хоть одно из этих полей повторять физическое название файла, включая даже расширение (есть такое мнение).
    Скажем, мне кажется логичным к фотографии dress.jpeg с платьем написать title 'платье Adidas', alt 'женская одежда adidas', а в 'description' что-нибудь развернутое.
    Но есть оптимизаторы, которые советуют сделать titile 'dress.jpeg'. Я не понимаю, зачем. Какой интерес поисковику вообще до названия файла...
     
  7. Sunday

    Sunday

    Регистр.:
    13 дек 2009
    Сообщения:
    732
    Симпатии:
    323
    А еще вы забыли полопатить http://help.yandex.ru/webmaster/?id=996567
    Так же мне не понятен смысл дублирования директив отдельно для яндекса. Это только из-за Host? Так те боты, которые его не понимают, просто проигнорируют, прочитав нормально все остальное. Вот дублирование директив я точно считаю лишним.
     
  8. White_S

    White_S

    Регистр.:
    27 май 2009
    Сообщения:
    474
    Симпатии:
    95
    Думаю не обязательно чтобы тайтлы отличались альтов, ибо вполне логично чтобы название картинки показывалось при наведении на нее и вместо нее если ее нет. Логично делать разные, чтобы охватить больше ключевиков разных. Название файла повторять незачем, т.к. это информация для пользователей и в глазах п.с. неразумно показывать пользователям рабочее название файла. Само по себе название файла, + заполненные описани, тайтлы, альты с вхождением ключевого слова - позволяют с высокой долей вероятности предполагать что там это изображено. Такую картинку и ранжировать выше будет ПС ибо вероятность показать пользователю не то что он ищет - минимально, а релевантность выдачи для поисковиков на первом месте.
     
  9. Skyfair

    Skyfair Постоялец

    Регистр.:
    27 мар 2013
    Сообщения:
    63
    Симпатии:
    14
    Насколько я читал и понимаю, в моем случае только из-за Host. Но так принято, чтобы и директивы все повторно были прописаны. У меня раньше в роботе еще и Гугл отдельно был прописан, непонятно зачем, тоже все зеркально. А куда деваться, удалить всё и проверить-то непросто.... И чревато для работающего сайта может быть.
    При этом Яндекс отдельно указывает, что Host может быть указан только один раз на весь robots.txt.
    Попробую завтра закрыть целиком папку /cart в Virtuemart, надеясь, что тогда оттуда не будет индексироваться все, что связано с корзиной. Если кто знает, как правильно, приглашаю в студию! ))
    То же надо делать и со всем, что связано с регистрацией пользователей, но как, пока не разбирался.
    Сегодня ошалел - у меня 200 неканонических ссылок показывает Яндекс вебмастер. Причем если части из них нет в карте сайта (допускаю, что это старые страницы, бывшие до каких-то изменений с SEF URL), то часть присутствует в карте сайта, рабочие и нужные ссылки, а вебмастер утверждает обратное! Надо разбираться....
    А вообще-то, у Яндекса больше десятка узконаправленных роботов, для которых можно все прописывать отдельно.
    YandexBot' — основной индексирующий робот;

    Но я не возьмусь, поскольку не понимаю различий.

    Тогда, выходит, у меня все чики-пуки с картинками. А чего ж их в поиске нет ни одной уже почти месяц как? Их крутануть специально-то никак нельзя, надо ждать, пока сами вылезут.
     
  10. xadro

    xadro Постоялец

    Регистр.:
    16 июл 2009
    Сообщения:
    99
    Симпатии:
    1
    У меня сортировка имеет вид: ?orderby=price&orderway=desc
    Как правильно закрыть от индексации? Ето ведь дубль?
    Исходя из логики страницы поиска тоже дублируют контент?
     
Статус темы:
Закрыта.