Помогите улучшить robots.txt

Тема в разделе "Wordpress", создана пользователем Protector, 25 дек 2015.

Модераторы: Sorcus
  1. Protector

    Protector Постоялец

    Регистр.:
    17 ноя 2013
    Сообщения:
    141
    Симпатии:
    16
    Решил поделится моим robots.txt под мои wordpress сайты. Ссылки на сайте имеют вид http://mysite.ru/nazvanie-statyi.html. Помогите улучшить робота. Что добавить, что убрать, какие роботы на ваших сайтах ?

    User-Agent: *
    Allow: /wp-content/uploads/
    Allow: /wp-content/themes/*.css
    Allow: /wp-content/plugins/*.css
    Allow: /wp-content/uploads/*.css
    Allow: /wp-content/themes/*.js
    Allow: /wp-content/plugins/*.js
    Allow: /wp-content/uploads/*.js
    Allow: /wp-includes/css/
    Allow: /wp-includes/js/
    Disallow: /cgi-bin
    Disallow: /wp-login.php
    Disallow: /admin
    Disallow: /wp-register.php
    Disallow: /xmlrpc.php
    Disallow: /template.html
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: */trackback/
    Disallow: /trackback
    Disallow: */*/trackback
    Disallow: /?s=
    Disallow: /*?*
    Disallow: /*category
    Disallow: /*feed
    Disallow: */feed
    Disallow: */*/feed/*/
    Disallow: /?feed=
    Disallow: /*comments
    Disallow: /*archives
     
  2. Q_BASIC

    Q_BASIC

    Регистр.:
    30 ноя 2013
    Сообщения:
    380
    Симпатии:
    236
    Плохо! Очень плохо!

    robots.txt должен быть как можно меньше. Запрещать индекс надо не в нем, а на самой странице:
    HTML:
    <meta name="robots" content="all"/>
    <meta name="robots" content="noindex, follow"/>
    Во-первых. То что вы запретили индексацию страницы входа, это совсем не значит, что злоумышленники её не найдут. Они скорее всего глянут роботс, так как там, такие как Вы, всяческие секретные файлы из индекса убирают.

    Во-вторых. Гугл индексирует эти страницы и даже в поиске показывает. Просто вместо краткого описания на странице результатов написано "Индексирование этой страницы запрещено"
     
    AlgoriVismut нравится это.
  3. Protector

    Protector Постоялец

    Регистр.:
    17 ноя 2013
    Сообщения:
    141
    Симпатии:
    16
    И как вы предлагаете реализовать это на wordpress ? Я не умею.
    Вряд ли в opensource движке есть какие либо секретные файлы. Цель робота закрыть от индексации дубли и всякий мусор, разве я не прав ? А вот посчитаются ли поисковики с роботом или проигнорируют это не моё дело. По крайней мере я сделал всё что мог и выполнил рекомендации ПС закрыв от индексации всё ненужное. С такой логикой не нужно закрывать от индексации внешние ссылки, всё равно поисковики не учитывают тег nofollow. Может и не нужно, но всё же лучше подстраховаться.
    И вообще, если вы считаете что это неправильно, то объясните пожалуйста как правильно и как на своих wordpress сайтах это делаете вы.
     
  4. Q_BASIC

    Q_BASIC

    Регистр.:
    30 ноя 2013
    Сообщения:
    380
    Симпатии:
    236
    http://www.wordpressplugins.ru/seo/wordpress-meta-robots.html

    https://www.google.com/search?q=wor...&sourceid=chrome&es_sm=93&ie=UTF-8&gws_rd=ssl
     
  5. Respekt2012

    Respekt2012 Постоялец

    Регистр.:
    14 мар 2012
    Сообщения:
    98
    Симпатии:
    28
    Не понимаю чем плох вариант в закрытии страниц в robots.txt и почему лучше именно закрывать со страниц я не знаю.
    А так в robots.txt не нужно закрывать css,js файлы, гугл их и так будет считывать.
     
    Protector нравится это.
  6. Protector

    Protector Постоялец

    Регистр.:
    17 ноя 2013
    Сообщения:
    141
    Симпатии:
    16
    Если честно не понял смысла этого плагина. Он ведь по умолчанию ставит на все записи "index, follow", верно ? Но у меня так и так все страницы блога индексируются, мне надо закрыть от индексации то что не является записью и страницей, то есть всё лишнее. Мне не нужен лишний плагин на сайте, меня вполне удовлетворяет ограничение индексации через робот. У кого нибудь есть ещё какие нибудь мысли по поводу robots.txt ?
     
  7. AWALL

    AWALL Создатель

    Регистр.:
    1 фев 2015
    Сообщения:
    10
    Симпатии:
    1
    Сам недавно начал анализировать проблемы с google вебмастером. Там есть функция "Просмотреть как Googlebot". Вот на нее рекомендую обратить внимание. То есть ты открывай какие-то отдельные файлы для робота, или смотри по объемам, и открывай сразу целые папки, желательно пробежаться по основным страницам, для начала.

    Так же рекомендую иметь в своем роботсе вот такие штуки, на случай, если что-то пропустишь при ручной правке:

    Allow: /*.js
    Allow: /*.css
    Allow: /*.jpg
    Allow: /*.gif
    Allow: /*.png

    P.S. Я бы поспорил про кол-во строк в файле роботс (по моему мнению, негативного влияния это оказывать не может)
     
    Protector нравится это.
  8. truev

    truev Создатель

    Регистр.:
    15 сен 2015
    Сообщения:
    12
    Симпатии:
    0
    Уважаемый . Робот.тхт скроет только отдельные файлы или папки. Страницы скрыть просто не возможно Гугл робот все равно их находит. В all one seo прекрасно можно указать тип индексируемых страниц
     
  9. Vadimuch

    Vadimuch Постоялец

    Регистр.:
    4 мар 2013
    Сообщения:
    56
    Симпатии:
    9
    Лучшим способом по формированию качественного роботс - это связка плагина+ручная проверка в Гугле-Яндексе.
    1. Устанавливаете плагин (их куча, берете фри и самый популярный).
    2. Тестите свои статьи, товары... та и весь сайт через https://www.google.com/webmasters/tools/robots-testing-tool и https://webmaster.yandex.ua/site/robots.xml
    3. Вносите, непосредственно, рекомендации от Я и Г.
     
  10. BestFish

    BestFish

    Регистр.:
    14 июн 2014
    Сообщения:
    154
    Симпатии:
    10
    Нужно запретить в роботс тхт индексацию ссылок типа: Сайт/Категория/offset_20 которые плодят дубли, подскажите как правильно:

    Disallow: /*_offset_*.html
    Disallow: /*_offset_*
    Disallow: /offset_20
    Disallow: /offset
    Disallow: /offset_*

    Спасибо, сорри за нубство:))