как защитить сайт от парсинга?

Статус
В этой теме нельзя размещать новые ответы.
Самый действующий способ это завести таблицу логов. и записывать туда данные пользователя и время обращения к странице. Если обращается слишком часто, значит 100% парсер. Давать таким 15 минут для передышки. но нужно быть аккуратным, что бы поисковиков не банить.
 
Единственный действительно работающий метод, это вычислять с какого IP вас парсят и закрывать для него доступ. Рано или поздно, те кто парсят, устанут менять адреса и переключатся на более легкую цель.
 
Самый действующий способ это завести таблицу логов. и записывать туда данные пользователя и время обращения к странице. Если обращается слишком часто, значит 100% парсер. Давать таким 15 минут для передышки. но нужно быть аккуратным, что бы поисковиков не банить.
Что ж у вас такая склонность то к маразмам? :)
То в теме про jqGrid чушь морозите, теперь здесь....))

У ТС есть RSS. Если проверять его скажем каждые пять минут, то вы такого пользователя будете банить? Если нет, то тогда парсер проверяющий RSS вами пойман не будет. Если да, то вместе с парсером вы поймаете и кучу честных пользователей.... а парсер просто сделает больше задержку....

Далее - если на сайте жертвы за сутки появилось десять новых статей (что не очень то и мало, скажем так), то парсер отслеживая изменения по RSS сами статьи прочтет по разу, т.е. обратится к сайту десять раз за сутки... с промежутком между запросами не менее часа. Вы его будете банить? Нет? А честного пользователя который из RSS сразу за минуту откроет все 20 ссылок, которые накопятся за два дня что он не появлялся в сети забаните? Умница....

Еще раз для тех у кого туго с логикой - в топе по частоте запросов будут только люди и совсем тупые парсероботы. А нормальные парсеры будут по частоте обращений заметно ниже среднего показателя.
 
*** скрытое содержание ***
Раскройте плиз Вашу мысль.
В лоб она звучит как "чукча не читатель, чукча писатель", но есть сомнение, что не новичок на форуме закрывает таким хайдом банальные вещи.

То, что ссылки вырезаются, и заменяются ссылками на сайте-воре писали уже несколько раз.
То, что название сайта написанное не ссылкой, типа "наш site.ru" обычно заменяется на "наш govnosplog.ru" тоже писали.

Есть еще пару мыслей, но они тоже не очень работоспособны, и/или не универсальны.
 
Раскройте плиз Вашу мысль.
В лоб она звучит как "чукча не читатель, чукча писатель", но есть сомнение, что не новичок на форуме закрывает таким хайдом банальные вещи.
 
Так говорили же, что так только дети поступают, с самописными недопарсерами. Что время таких вещей ушло. Или Вас таки дети парсят где-то?
Все равно не понял зачем хайд да да еще и такой... тем более что об этом уже писали :)
 
Немного не по теме, но как в индекс выходят сайты которые сделаны полностью на flash?(Раскрутка бэками в счёт не идёт) Поисковики, то их как то индексят, а в самой странице иногда только вызов флэш проигрывателя. (Как вариант, тоже защита.)
 
Самый лучший метод - это всё в Java script запихать и ещё перекодировать, часть кусков, чтоб отображалось и выводилось только для пользователя. Правдо есть свои минусы у кого JS отключен не будет видеть стр.
Хммм... А как быть с индексацией поисковиками? Ведь текст JS будет спрятан не только от парсинга, но и от ПС.
 
Была мысль делать паузу для частообращающихся с одного IP, но тогда надо пропускать IP-шники ПС-ботов. В данном случае я думаю не о сайте ТС с RSS лентой. Меня интересует как защитить свой сайт от автоматического парсинга контента. Например, у меня на 1 уника 2 просмотра. Можно поставить включение паузы на отдачу контента в случае, если стучатся на сайт с одного и того же IP более 3 раз за 1 минуту. Паузу ставить на 10 минут, например. Тогда для того, чтобы спарсить контент с сайта из 1000 страниц понадобится как минимум 30000 минут.
А что думают профи в этом вопросе?
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху