как защитить сайт от парсинга?

Статус
В этой теме нельзя размещать новые ответы.

vesta-v

Старатель
Регистрация
25 Окт 2007
Сообщения
311
Реакции
14
Добрый день, с моего сайта частенько парсят все новости. Я так понимаю что делается это по определенному шаблону, так вот поменяла названия блоков (div) все равно ничего не помогает. Причем в моем тексте стоят ссылки на внутренние страницы сайта, у того кто парсит - моих ссылок нет. То что это работа скрипта, 100% (добавляется почти сразу). Rss у меня только на краткую новость. Вобщем кто какие методы борьбы, кто может подсказать?
 
Добрый день, с моего сайта частенько парсят все новости. Я так понимаю что делается это по определенному шаблону, так вот поменяла названия блоков (div) все равно ничего не помогает. Причем в моем тексте стоят ссылки на внутренние страницы сайта, у того кто парсит - моих ссылок нет. То что это работа скрипта, 100% (добавляется почти сразу). Rss у меня только на краткую новость. Вобщем кто какие методы борьбы, кто может подсказать?
а айпи парсера похожие в логах?Баньте его подсеть
 
Добрый день, с моего сайта частенько парсят все новости. Я так понимаю что делается это по определенному шаблону, так вот поменяла названия блоков (div) все равно ничего не помогает. Причем в моем тексте стоят ссылки на внутренние страницы сайта, у того кто парсит - моих ссылок нет. То что это работа скрипта, 100% (добавляется почти сразу). Rss у меня только на краткую новость. Вобщем кто какие методы борьбы, кто может подсказать?

а известно где потом твои новости появляются? в смысле, на каком количестве сайтов?
 
Добрый день, с моего сайта частенько парсят все новости. Я так понимаю что делается это по определенному шаблону, так вот поменяла названия блоков (div) все равно ничего не помогает. Причем в моем тексте стоят ссылки на внутренние страницы сайта, у того кто парсит - моих ссылок нет. То что это работа скрипта, 100% (добавляется почти сразу). Rss у меня только на краткую новость. Вобщем кто какие методы борьбы, кто может подсказать?


вот здесь блогер рассказывает,как боролся с парсингом


Оригинально довольно таки :)
 
наймите PHPиста, пусть слегка над кодом помудрует.
имхо, смена кода - не вариант... если топикстартер меняла имена div'ам, а сканирование продолжалось, то код придется менять довольно неслабо... весь layout, размещение слоев.. не менять же его каждую неделю...
я бы сосредоточился на бэклинках и привлечении спайдеров поисковиков, чтобы как только у меня появилась новость - спайдера сразу ее съедали у меня первого... таким образом, первоначальным источником уникального контента буду я, а все остальные - уже копии...
это на случай, если автор просто боится терять ранкинг из-за копий... но если же там важный контент, запрещенный автором к копированию, то се ля ви.. имхо никакие способы не помогут запретить перепечатывать материалы, будь то сканер или вручную...
 
вот здесь блогер рассказывает,как боролся с парсингом
*** скрытое содержание ***

Оригинально довольно таки :)

Оригинально, но не эффективно. Такие ГС на автомате контент обычно парсят. Внешние ссылки почти всегда в них режутся. Плюс могут стоять определенные фильтры и стоп-слова на парсинг.

Ускорение индексации ваших страниц. Вот пожалуй лучшее в данном случае решение.
 
вставляйте в текст не ссылки, а просто упоминания вашего сайта. упоминания парсер резать не будет, а какая-то часть трафика возможно отправится к вам на сайт.
тексты с картинками? картинки утягивают к себе или с вас показывают? если с вас, то настройте на отдачу для посторонних хостов картинки, на которой будет написано что новости цельнотянутые с такого-то ресурса.
 
вставляйте в текст не ссылки, а просто упоминания вашего сайта. .
Упоминание легко редактируется.
Ставьте скрытый текст со ссылками на ваш сайт.
Подробнее например тут:
 
Самый простой метод парсинга (сильно упрощенно:(
1)Берем RSS
2) Из него берем ссылку на оригинальную статью.
3) по этому адресу ищем див, в котором присутствует текст из коротной новости в rss
4) если текст присутствует в этом диве, то весь остальной текст с высокой вероятностью и есть полная версия статьи.

Сюда можно добавить отбрасывание постоянной составляющей типа "это краткая новость с сайта сайт.ру, если интересно - переходите к нам" и прочие доработки, но общая идея сохраняется.

Такому парсеру глубоко до лампочки как вы называете ваши дивы.
Что с ним можно сделать? в идеале короткий анонс должен полностью отличаться от полной новости. Еще полезно разрывать контент на несколько дивов. Если анонс будет состоять из пяти дивов, и остальная часть еще из десятка, то парсеру будет не сладко.
Можно еще попереставлять дивы средствами css, но это уже сильно на грани того чтобы осложнить жизнь еще и поисковикам.

Шадлоны разбивки текста в идеале должны отличаться от страницы к странице. (несколько типовых схем сильно запутают оппонента).

Еще одна эвристика поиска основного контента на странице:
из rss мы берем только ссылки.
Далее - див с самым большим количеством текста это наша искомая статья. (в идеале надо еще проверить плотность ссылок, чтоб не поймать менюху какую)....
Защита здесь примерно такая же как в предыдущем случае.


Вообще война парсинга и антипарсинга заключается в том, чтобы сложность парсинга превышала ценость контента - проще найти другой сайт чем с тобой воевать. Так что оценивайте целесообразность и необходимую сложность запутываний исходя из ценности контента который у вас есть....
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху