[Помощь] SMF форум: удаление дублей из индекса Гугла

Тема в разделе "Open Source", создана пользователем goldyman, 31 июл 2011.

Модераторы: Amazko, Aste
  1. goldyman

    goldyman

    Регистр.:
    6 мар 2008
    Сообщения:
    177
    Симпатии:
    29
    Есть форум на SMF - более 300 тем, более 5000 сообщений. Недавно обновился до версии 2.0. В индексе Яндекса все что нужно и ничего лишнего нет. А вот с индексом Гугла беда. Т. к. Гугл гораздо быстрее индексирует новые темы форума, в индекс попадает (попадало) достаточное количество спамных тем. Когда удаляю тему, по ее урл отображается форма входа с заголовком "Вход".

    Сегодня решил помониторить индекс Гугла и просто офигел - в индексе более 100 страниц с заголовком "Вход" и формой для входа.

    Конечно, можно запретить эти странице в роботсе и вручную поудалять из индекса, но ведь будут появляться и новые... Может кто-нибудь знает более простой выход? Например, чтобы удаленные темы выдавали 404 ошибку, как это можно осуществить?
     
  2. lift

    lift Читатель

    Заблокирован
    Регистр.:
    1 июл 2007
    Сообщения:
    2.226
    Симпатии:
    1.377
    goldyman
    от 404 разници с точки зрения гуголы не будет. Как влетели в индекс так и вылетят из него, ничего плохого не будет.
    Если сильно хочется, то в .htaccess по одному страници вгоняеш и редирект на морду с них )))
    На твоем месте всетаки стоит не последствия решать а проблему. Чтоб не пришлось удалять темы. А так ты до пенсии будеш что то сделать пытаться.
     
  3. goldyman

    goldyman

    Регистр.:
    6 мар 2008
    Сообщения:
    177
    Симпатии:
    29
    Кстати, только что проблему решил... На форуме русской поддержки под SMF была создана многостраничная тема, аж с 2008 года по поводу составления правильного robots.txt. Автор темы тестировал отношение ПС к разным роботсам, и я как и многие решил воспользоваться его советом. Вначале темы он отметил, что для того, чтобы бот лазил по всему форуму нужно в шаблоне темы сделать изменения, заменить: <meta name="robots" content="noindex" /> на <meta name="robots" content="index, follow" />. Я так и сделал, и все нормально работало, лишь изредка всплывали удаленные темы в индексе Гугла, но я их удалял из панели вебмастера. Потом форум стали сильно спамить, приходилось каждое утро по 20 новых спам-тем удалять, а гугл успевал некоторую их часть проиндексировать. Отсюда и повылазили в последнее время эти темы удаленные. Сейчас я все вернул на свои места и теперь в мета-тегах удаленных тем name="robots" content="noindex". Так что теперь можно не париться, новые удаленные темы по идее не должны попадать в индекс.
     
  4. funkaaa

    funkaaa Создатель

    Регистр.:
    13 окт 2011
    Сообщения:
    20
    Симпатии:
    0
    Ещё как вариант запретить в роботсе эти ссылки. Способ весьма гиморный