как запретит парсинг со своего сайта?

Статус
В этой теме нельзя размещать новые ответы.
ставьте ловушку для ботов в виде однопиксельного изображения и кто через нее пройдет ..отфильтруйте поисковых ботов, а остальных блокируйте...
 
А поподробнее если, то куда вставлять и какой принцип работы?
 
<!-- На всех страницах сайта ставим ловушку для роботов..в самом верху....-->
<a href='xxx.php?a=1'><img src='o.gif' width='1' height='1' border='0'></a>
где xxx.php--срипт статистики..
анализируем..
PHP:
$a = isset($_GET['a'])?$_GET['a']:'';
if ($a==1)// робот пойман..
Это принцип..на самом деле можно делать по-другому...
 
Немного не так. Парсеры обычно не ломятся на все подряд ссылки с сайта, так что такая "ловушка" особо толку не даст.

А вот что не делает абсолютное большинство парсеров - так это не скачивают внешние файлы - скрипты, css и картинки. Поэтому если вставить в html <img src="/check.php?seed=2121"> то потом по отсутствию запроса на сервер с именно таким seed и с того же IP/Useragent - можно уже более-менее уверенно говорить, что перед тобой бот - и следующие странички ему не давать.

Но самый реальный способ - юзать яваскрипт. Отобрать известные поисковики, а остальным отдавать кашу без ссылок и с пошифрованым текстом, и к ним javascript который меняет все обратно через например innerHTML.
 
ну да, JS+морфинг лейаута HTML - впринципе, более геморнее чем сложно, но парсеры обламываются (не важно, на простых регулярках, или DOM строят).
А вообще, если сайт XSLT-шный, просто раз в час дёргается скрипт, который перебивает все стили и преобразования (просто меняет имена тэгам)
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху