Хочется поговорить о правильном robots.txt

Статус
В этой теме нельзя размещать новые ответы.

Skyfair

Постоялец
Регистрация
26 Мар 2013
Сообщения
63
Реакции
15
Я немного полопатил раздел нуля про SEO, и, к своему удивлению, мало чего нашел про настройку robots.txt
Прямо чтобы от и до. Я запустил 2 новых сайта на joomla 2.5, и не очень-то много нарыл в интернете про настройку этого чудо-файла.
Собственно, у меня как-то все слишком просто выглядит:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Allow: /components/com_virtuemart/
Disallow: /components/
Allow: /images/stories/virtuemart/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Sitemap: Для просмотра ссылки Войди или Зарегистрируйся
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Allow: /components/com_virtuemart/
Disallow: /components/
Allow: /images/stories/virtuemart/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Host: домен.ru
Sitemap: Для просмотра ссылки Войди или Зарегистрируйся
Для просмотра ссылки Войди или Зарегистрируйся
Для сравнения попросил недавно знакомого с успешным интернет-магазином на Opencart прислать свой robots. Так я даже не понял, о чем там! И встревожился...
Соответственно, у меня предложение и просьба - давайте разберем, кто, что и как добавляет в файл, пусть даже на разных CMS.
Про свои изменения могу сказать лишь, что их совсем немного:
- добавлен Host: домен.ru для Яндекса
- отдельно разрешен доступ в компонент VirtueMart
- отдельно разрешен доступ к папке, где лежат картинки товаров, для их индексации.
- понятное дело, прописана карта сайта.
 
Не работал я с этим двигом, но меня смутила запись
Код:
Disallow: /installation/
. Это что установочная папка, а ее не надо удалять? Если надо было и вы этого не сделали - то ошибка двойная, т.к. таким файлом robots.txt вы еще сообщаете всему миру о том что такая папка у вас есть. Вообще файл этот призван скрывать от индексации все что может быть проиндексировано, и если есть папки извне недоступные, которые поисковики и найти не могут, я бы не стал указывать их в роботсе. Вобщем и изображения могут нормально индексироваться без этих извращений. Это мое мнение. скрывать надо страницы с неуникальным (не всегда), дублированным (всегда) контентом, всякие пустышки и т.п.
 
Добавлю, что обычно в ИМ закрывают фильтры и сортировки т.к. по сути контент один просто в разном порядке. И конструкции там вида /sort=*&* и т.д. т.п. Если что то не понятно конкретно по роботсу опенкарта, выложи разберём.
 
Ну да, папки installation, конечно, давно нет. Удалил ее и из роботса.
Добавлю, что обычно в ИМ закрывают фильтры и сортировки т.к. по сути контент один просто в разном порядке. И конструкции там вида /sort=*&* и т.д. т.п. Если что то не понятно конкретно по роботсу опенкарта, выложи разберём.
Было бы неплохо и мне закрыть дублирующийся контент. Так об этом и речь!
И как это сделать можно для Joomla?
Отдельный вопрос про изображения - хочу подчеркнуть - кто как считает, индексируются они с закрытой папкой image или нет? По идее, они же должны индексироваться через страницу продукта.... Или для поисковиков обязательна их индексация по прямым ссылкам?
Спрашиваю потому, что у меня на одном из сайтов уникальные фотографии, закрытые водяными знаками, и я, вообще, очень рассчитываю на них в плане НЧ запросов. Пока (сайту 3 недели) результата никакого ни по Яндексу, ни по Гуглу.
 
Чтобы закрыть дублирующий контент, запишите регулярное выражение в роботс, например если все сортировки имеют в своем урле "sort=" то в роботс запись "disallow: *sort=*" закроет весь дублированный сортировочный контент. В яндекс вебмастере довольно подробно написано об этом. Вот движуха с фотками мне не понятна, зачем папку с изображениями скрывать или открывать для индексации, что ожидается от такой директивы? Паук не будет искать в папке картинки на которые нет никаких ссылок нигде. Я считаю что папка с картинками должна быть открыта для индексации по прямым ссылкам, и даже если картинка перестала использоваться на сайте, удалять ее из папки этой не надо, мое мнение - "все что есть в индексе - пускай живет вечно". для того чтоб трафик на картинки по н.ч. был, надо картинки эти называть релевантно и прописывать релевантные атрибуты, у меня даже на совсем неуникальные картинки есть трафик благодаря этому.
 
Таким образом, есть совет полностью удалить поля Disallow для всех изображений на сайте? Кроме графики шаблона, естественно?
Убрать обе строчки?
Allow: /images/stories/virtuemart/
Disallow: /images/
В принципе, в папке images в Joomla всегда лежит разная графика, которая вставляется, скажем, в статьи или модули. Почему бы ее не индексировать...
И еще не совсем про robots, но раз уж зашел разговор про картинки - я считаю, что в каждой должен быть заполнен titile, alt и, желательно, description, хотя он влияет только на сниппет.
Так вот какие вопросы по заполнению полей у меня имеются:
1. должны ли title и alt совпадать или обязательно различаться.
2. должно ли хоть одно из этих полей повторять физическое название файла, включая даже расширение (есть такое мнение).
Скажем, мне кажется логичным к фотографии dress.jpeg с платьем написать title 'платье Adidas', alt 'женская одежда adidas', а в 'description' что-нибудь развернутое.
Но есть оптимизаторы, которые советуют сделать titile 'dress.jpeg'. Я не понимаю, зачем. Какой интерес поисковику вообще до названия файла...
 
А еще вы забыли полопатить Для просмотра ссылки Войди или Зарегистрируйся
Так же мне не понятен смысл дублирования директив отдельно для яндекса. Это только из-за Host? Так те боты, которые его не понимают, просто проигнорируют, прочитав нормально все остальное. Вот дублирование директив я точно считаю лишним.
 
Так вот какие вопросы по заполнению полей у меня имеются:
1. должны ли title и alt совпадать или обязательно различаться.
2. должно ли хоть одно из этих полей повторять физическое название файла, включая даже расширение (есть такое мнение).
Скажем, мне кажется логичным к фотографии dress.jpeg с платьем написать title 'платье Adidas', alt 'женская одежда adidas', а в 'description' что-нибудь развернутое.
Но есть оптимизаторы, которые советуют сделать titile 'dress.jpeg'. Я не понимаю, зачем. Какой интерес поисковику вообще до названия файла...
Думаю не обязательно чтобы тайтлы отличались альтов, ибо вполне логично чтобы название картинки показывалось при наведении на нее и вместо нее если ее нет. Логично делать разные, чтобы охватить больше ключевиков разных. Название файла повторять незачем, т.к. это информация для пользователей и в глазах п.с. неразумно показывать пользователям рабочее название файла. Само по себе название файла, + заполненные описани, тайтлы, альты с вхождением ключевого слова - позволяют с высокой долей вероятности предполагать что там это изображено. Такую картинку и ранжировать выше будет ПС ибо вероятность показать пользователю не то что он ищет - минимально, а релевантность выдачи для поисковиков на первом месте.
 
А еще вы забыли полопатить Для просмотра ссылки Войди или Зарегистрируйся
Так же мне не понятен смысл дублирования директив отдельно для яндекса. Это только из-за Host? Так те боты, которые его не понимают, просто проигнорируют, прочитав нормально все остальное. Вот дублирование директив я точно считаю лишним.
Насколько я читал и понимаю, в моем случае только из-за Host. Но так принято, чтобы и директивы все повторно были прописаны. У меня раньше в роботе еще и Гугл отдельно был прописан, непонятно зачем, тоже все зеркально. А куда деваться, удалить всё и проверить-то непросто.... И чревато для работающего сайта может быть.
При этом Яндекс отдельно указывает, что Host может быть указан только один раз на весь robots.txt.
Попробую завтра закрыть целиком папку /cart в Virtuemart, надеясь, что тогда оттуда не будет индексироваться все, что связано с корзиной. Если кто знает, как правильно, приглашаю в студию! ))
То же надо делать и со всем, что связано с регистрацией пользователей, но как, пока не разбирался.
Сегодня ошалел - у меня 200 неканонических ссылок показывает Яндекс вебмастер. Причем если части из них нет в карте сайта (допускаю, что это старые страницы, бывшие до каких-то изменений с SEF URL), то часть присутствует в карте сайта, рабочие и нужные ссылки, а вебмастер утверждает обратное! Надо разбираться....
А вообще-то, у Яндекса больше десятка узконаправленных роботов, для которых можно все прописывать отдельно.
YandexBot' — основной индексирующий робот;
Но я не возьмусь, поскольку не понимаю различий.

Само по себе название файла, + заполненные описани, тайтлы, альты с вхождением ключевого слова - позволяют с высокой долей вероятности предполагать что там это изображено. Такую картинку и ранжировать выше будет ПС ибо вероятность показать пользователю не то что он ищет - минимально, а релевантность выдачи для поисковиков на первом месте.
Тогда, выходит, у меня все чики-пуки с картинками. А чего ж их в поиске нет ни одной уже почти месяц как? Их крутануть специально-то никак нельзя, надо ждать, пока сами вылезут.
 
У меня сортировка имеет вид: ?orderby=price&orderway=desc
Как правильно закрыть от индексации? Ето ведь дубль?
Исходя из логики страницы поиска тоже дублируют контент?
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху