Как защитится от NewsGrabber`а

Lounge

Создатель
Регистрация
14 Апр 2008
Сообщения
49
Реакции
4
Смешной вопрос, но все же, можно как-то защититься, чтоб не грабили твою ленту?
 
зделать чтобы статьи начиналась и заканчивались без всяких особых тегов
 
Lounge: если хочешь остаться видимым для поисковиков, то никак ты не защитишься. А regexp можно даже при отсутствии особых тегов написать
 
Самый простой способ защиты это сделать граб твоей ленты не интересным для "грабера"

1. Усложни ему жизнь не уникальными тегами, наличием всякой лабуды которая динамически меняется что бы товарисч утомился писать skip
2. Ничто так не нервирует, как встроена в тело новости реклама

3. когда ссылка на твой сайт есть в новости и не помечена тегами, она появиться у "грабера"

По личному опыту знаю, что чем бороть подобный сайт проще найти в гугле десяток более простых
 
2.
PHP:
$out = preg_replace("'<script[^>]*?>.*?</script>'si", "", $in);
ява рекламы нет, это можно дописть отдельным скриптом который почистит базу
 
Ничего не поможет. Можно убить все теги и грабить даже без RSS
 
Для любого граббера нужна зацепка в тегах. Он же просто за текст не может цепляться. Можно сделать несколько шаблонов для сайта (одинаковых по виду, но немного отличающиеся в тегах) и переодически их менять. Для пользователя никаких изменений видно не будет а вот граббер будет спотыкаться.
 
Для любого граббера нужна зацепка в тегах. Он же просто за текст не может цепляться. Можно сделать несколько шаблонов для сайта (одинаковых по виду, но немного отличающиеся в тегах) и переодически их менять. Для пользователя никаких изменений видно не будет а вот граббер будет спотыкаться.

Фигня. Во-первых за текст он цепляться может. во-вторых все способы вывода можно описать через "или" в шаблонах или точках граббинга. имхо единственный способ - прошивать защиту граббинга сайта в самом коде граббера. но это уже к автору.
 
master6681 написал(а):
Для любого граббера нужна зацепка в тегах. Он же просто за текст не может цепляться. Можно сделать несколько шаблонов для сайта (одинаковых по виду, но немного отличающиеся в тегах) и переодически их менять. Для пользователя никаких изменений видно не будет а вот граббер будет спотыкаться.

ну вот возьмем твое сообщение, состоит из 4 предложений в каждом больше 6 слов, вот тебе и зацепка
 
Кста можно еще банить по агенту, по ипу, который делает слишком много запросов к ресурсам за короткое время. Но это тоже можно обходить. в про версии, например, граббер представляется серверу фаирфоксом. специально проверил. ну и через прокси он работает, так что все баны фтопку. короче единственный способ спастись от граббинга - закрыть сайт от посетителей. если даже нет рсс - потырят через хтмл.
 
Назад
Сверху