Как защитится от NewsGrabber`а

Тема в разделе "NewsGrabberJC", создана пользователем Lounge, 25 апр 2008.

  1. Lounge

    Lounge Создатель

    Регистр.:
    14 апр 2008
    Сообщения:
    45
    Симпатии:
    3
    Смешной вопрос, но все же, можно как-то защититься, чтоб не грабили твою ленту?
     
  2. yuzer

    yuzer Создатель

    Регистр.:
    20 апр 2007
    Сообщения:
    23
    Симпатии:
    9
    зделать чтобы статьи начиналась и заканчивались без всяких особых тегов
     
  3. signet

    signet Создатель

    Регистр.:
    1 апр 2007
    Сообщения:
    26
    Симпатии:
    11
    Lounge: если хочешь остаться видимым для поисковиков, то никак ты не защитишься. А regexp можно даже при отсутствии особых тегов написать
     
  4. demmy

    demmy

    Регистр.:
    13 ноя 2006
    Сообщения:
    330
    Симпатии:
    96
    Самый простой способ защиты это сделать граб твоей ленты не интересным для "грабера"

    1. Усложни ему жизнь не уникальными тегами, наличием всякой лабуды которая динамически меняется что бы товарисч утомился писать skip
    2. Ничто так не нервирует, как встроена в тело новости реклама

    3. когда ссылка на твой сайт есть в новости и не помечена тегами, она появиться у "грабера"

    По личному опыту знаю, что чем бороть подобный сайт проще найти в гугле десяток более простых
     
  5. signet

    signet Создатель

    Регистр.:
    1 апр 2007
    Сообщения:
    26
    Симпатии:
    11
    2.
    PHP:
    $out preg_replace("'<script[^>]*?>.*?</script>'si"""$in);
    ява рекламы нет, это можно дописть отдельным скриптом который почистит базу
     
  6. AdeQuAte

    AdeQuAte

    Регистр.:
    23 мар 2007
    Сообщения:
    353
    Симпатии:
    45
    Ничего не поможет. Можно убить все теги и грабить даже без RSS
     
  7. master6681

    master6681

    Регистр.:
    17 дек 2006
    Сообщения:
    577
    Симпатии:
    124
    Для любого граббера нужна зацепка в тегах. Он же просто за текст не может цепляться. Можно сделать несколько шаблонов для сайта (одинаковых по виду, но немного отличающиеся в тегах) и переодически их менять. Для пользователя никаких изменений видно не будет а вот граббер будет спотыкаться.
     
  8. mehanic

    mehanic Писатель

    Регистр.:
    4 апр 2007
    Сообщения:
    1
    Симпатии:
    29
    Фигня. Во-первых за текст он цепляться может. во-вторых все способы вывода можно описать через "или" в шаблонах или точках граббинга. имхо единственный способ - прошивать защиту граббинга сайта в самом коде граббера. но это уже к автору.
     
  9. signet

    signet Создатель

    Регистр.:
    1 апр 2007
    Сообщения:
    26
    Симпатии:
    11
    ну вот возьмем твое сообщение, состоит из 4 предложений в каждом больше 6 слов, вот тебе и зацепка
     
  10. mehanic

    mehanic Писатель

    Регистр.:
    4 апр 2007
    Сообщения:
    1
    Симпатии:
    29
    Кста можно еще банить по агенту, по ипу, который делает слишком много запросов к ресурсам за короткое время. Но это тоже можно обходить. в про версии, например, граббер представляется серверу фаирфоксом. специально проверил. ну и через прокси он работает, так что все баны фтопку. короче единственный способ спастись от граббинга - закрыть сайт от посетителей. если даже нет рсс - потырят через хтмл.