как защитить сайт от парсинга?

vesta-v · 23 Апр 2011

Добрый день, с моего сайта частенько парсят все новости. Я так понимаю что делается это по определенному шаблону, так вот поменяла названия блоков (div) все равно ничего не помогает. Причем в моем тексте стоят ссылки на внутренние страницы сайта, у того кто парсит - моих ссылок нет. То что это работа скрипта, 100% (добавляется почти сразу). Rss у меня только на краткую новость. Вобщем кто какие методы борьбы, кто может подсказать?

doxx · 23 Апр 2011

vesta-v написал(а):
Добрый день, с моего сайта частенько парсят все новости. Я так понимаю что делается это по определенному шаблону, так вот поменяла названия блоков (div) все равно ничего не помогает. Причем в моем тексте стоят ссылки на внутренние страницы сайта, у того кто парсит - моих ссылок нет. То что это работа скрипта, 100% (добавляется почти сразу). Rss у меня только на краткую новость. Вобщем кто какие методы борьбы, кто может подсказать?

а айпи парсера похожие в логах?Баньте его подсеть

FunSeeker · 23 Апр 2011

vesta-v написал(а):
Добрый день, с моего сайта частенько парсят все новости. Я так понимаю что делается это по определенному шаблону, так вот поменяла названия блоков (div) все равно ничего не помогает. Причем в моем тексте стоят ссылки на внутренние страницы сайта, у того кто парсит - моих ссылок нет. То что это работа скрипта, 100% (добавляется почти сразу). Rss у меня только на краткую новость. Вобщем кто какие методы борьбы, кто может подсказать?

а известно где потом твои новости появляются? в смысле, на каком количестве сайтов?

good60 · 24 Апр 2011

vesta-v написал(а):
Добрый день, с моего сайта частенько парсят все новости. Я так понимаю что делается это по определенному шаблону, так вот поменяла названия блоков (div) все равно ничего не помогает. Причем в моем тексте стоят ссылки на внутренние страницы сайта, у того кто парсит - моих ссылок нет. То что это работа скрипта, 100% (добавляется почти сразу). Rss у меня только на краткую новость. Вобщем кто какие методы борьбы, кто может подсказать?

вот здесь блогер рассказывает,как боролся с парсингом

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Оригинально довольно таки

FunSeeker · 24 Апр 2011

zek24 написал(а):
наймите PHPиста, пусть слегка над кодом помудрует.

имхо, смена кода - не вариант... если топикстартер меняла имена div'ам, а сканирование продолжалось, то код придется менять довольно неслабо... весь layout, размещение слоев.. не менять же его каждую неделю...
я бы сосредоточился на бэклинках и привлечении спайдеров поисковиков, чтобы как только у меня появилась новость - спайдера сразу ее съедали у меня первого... таким образом, первоначальным источником уникального контента буду я, а все остальные - уже копии...
это на случай, если автор просто боится терять ранкинг из-за копий... но если же там важный контент, запрещенный автором к копированию, то се ля ви.. имхо никакие способы не помогут запретить перепечатывать материалы, будь то сканер или вручную...

makia · 24 Апр 2011

good60 написал(а):
вот здесь блогер рассказывает,как боролся с парсингом
*** скрытое содержание ***

Оригинально довольно таки

Оригинально, но не эффективно. Такие ГС на автомате контент обычно парсят. Внешние ссылки почти всегда в них режутся. Плюс могут стоять определенные фильтры и стоп-слова на парсинг.

Ускорение индексации ваших страниц. Вот пожалуй лучшее в данном случае решение.

HellWorm · 25 Апр 2011

makia написал(а):
Ускорение индексации ваших страниц. Вот пожалуй лучшее в данном случае решение.

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

efs · 25 Апр 2011

вставляйте в текст не ссылки, а просто упоминания вашего сайта. упоминания парсер резать не будет, а какая-то часть трафика возможно отправится к вам на сайт.
тексты с картинками? картинки утягивают к себе или с вас показывают? если с вас, то настройте на отдачу для посторонних хостов картинки, на которой будет написано что новости цельнотянутые с такого-то ресурса.

Asin · 25 Апр 2011

efs написал(а):
вставляйте в текст не ссылки, а просто упоминания вашего сайта. .

Упоминание легко редактируется.
Ставьте скрытый текст со ссылками на ваш сайт.
Подробнее например тут:

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Mendel · 25 Апр 2011

Самый простой метод парсинга (сильно упрощенно

1)Берем RSS
2) Из него берем ссылку на оригинальную статью.
3) по этому адресу ищем див, в котором присутствует текст из коротной новости в rss
4) если текст присутствует в этом диве, то весь остальной текст с высокой вероятностью и есть полная версия статьи.

Сюда можно добавить отбрасывание постоянной составляющей типа "это краткая новость с сайта сайт.ру, если интересно - переходите к нам" и прочие доработки, но общая идея сохраняется.

Такому парсеру глубоко до лампочки как вы называете ваши дивы.
Что с ним можно сделать? в идеале короткий анонс должен полностью отличаться от полной новости. Еще полезно разрывать контент на несколько дивов. Если анонс будет состоять из пяти дивов, и остальная часть еще из десятка, то парсеру будет не сладко.
Можно еще попереставлять дивы средствами css, но это уже сильно на грани того чтобы осложнить жизнь еще и поисковикам.

Шадлоны разбивки текста в идеале должны отличаться от страницы к странице. (несколько типовых схем сильно запутают оппонента).

Еще одна эвристика поиска основного контента на странице:
из rss мы берем только ссылки.
Далее - див с самым большим количеством текста это наша искомая статья. (в идеале надо еще проверить плотность ссылок, чтоб не поймать менюху какую)....
Защита здесь примерно такая же как в предыдущем случае.

Вообще война парсинга и антипарсинга заключается в том, чтобы сложность парсинга превышала ценость контента - проще найти другой сайт чем с тобой воевать. Так что оценивайте целесообразность и необходимую сложность запутываний исходя из ценности контента который у вас есть....

как защитить сайт от парсинга?

vesta-v

Старатель

doxx

|||llll|||||llll|||

FunSeeker

Писатель

good60

Постоялец

FunSeeker

Писатель

makia

Постоялец

HellWorm

Гуру форума

efs

SEO оптимизатор дискрипторов одностраничных сайтов

Asin

Мой дом здесь!

Mendel

Гуру форума