как запретит парсинг со своего сайта?

Статус
В этой теме нельзя размещать новые ответы.
пару способов

Очень действующая
Сделать блокировку запросов чаще чем в n cекунд, выводить контент с помощью яваскриптов...
Вот человек правильно сказал. я лиш добавлю от себя более детальнее:
1.1 Вставляем везде в код скрипт контроля чтения веб страниц, как только количество одновременных обращений превысит допустимый уровень то...
1.2 Блокируем доступ на некоторое время с помощью htaccess по IP ну и по кукам или очень хочется. Либо делаем редирект на страницу разблокировки, где будет каптча для возможности разблокировки.

ну и ещё способ по своему очень неплох.

2.1 В каждой странице вставляем как счётчик датчик загрузки. Обычно роботы, и парсящие фигни не скачивают картинки одновременно с загрузкой html содержимого. отлавливаем нечистивых читателей и переходим к 1.2


Недостатки:
первый способ парситься через прокси
второй можно скачать скачивая картинки и не только html, но это обычно не делаю никакие качалки
 
Единственный реально работающий способ - выводить текст картинкой (но имеет свои недостатки).

Всё остальное - защита от ламеров.

Угу.... конечно, а поисковые системы как по вашему будут индексировать сайт? может быть файнридером? :D
 
Сделать блокировку запросов чаще чем в n cекунд
Есть специальные модули для апача, которые лимитируеют к-во одновременных обращений к сайту и к-во передоваемых данных, за определенный переод времени.

Лучше сделать систему анализа (бот/небот). Учитывать к-во одновременных обращений к страницам, обработку ява-скриптов, картинок, движений мышкой и прочих вещей. Выставлять баллы за каждый тест. Определить порог баллов до достижения, которого посетитель считаеться ботом. ;)
 
если в браузере присутствует текст то он уже как минимум на вашем компе. Нереально сделать такую защиту, скрины и фотики еще никто не отменял :)
 
Если контент уникальный и нужный, то никакая защита не сработает. С капчами - либо будут распознавать, либо к какому-то порнику прикрутят и будут просить дрочеров ввести код с капчи.
Ява скрипты разбираются вручную одн раз, и контент продолжает дампиться старым парсером. Можно их апдейтить, но тут уж у кого больше терпения хватит, - того кто будет писать защиту, или у того кто будет ее ломать.
 
В этой теме нужно глядеть на проблему с двух сторон:
- чтобы ты сделал будь ты злостным копипастером
- как бы ты себя вел будь ты добрым роботом

1. По первому случаю:
юзер-агент, IP и прочие атрибуты роботов не катят, т.е. не являются основанием для бана
самая основная проблема - распарсить конечный текст в удобоваримуб инфу, далеко не всегда это так просто. Возмем к примеру answers.yahoo.com - анука попробуйте просечь формат ссылок для массового парсинга без паука....
Вывод - постарайтесь выходной html сделать неудобным для парсинга и формат ссылок сделать понавороченней (например /nazvanie_stati/ вместо /?page=1)

2. По второму случаю:
Неплохой признак поисковых роботов - непоследовательность обращения к отдельным страницам сайта и период обращения. Для отдельных ботов имеют место постоянные IP и даже время обращения (например яша любит приходить ночью после 1.00 на часа 3-4)
Вывод - можно фильтровать

Но и это не является как таковой защитой, надо постоянно мониторить логи.
 
_http://www.nulled.ws/showpost.php?p=454226&postcount=1 - уже давно выложили скрипт для снижения нагрузки (Если больше 2-3 обращений к сайту за n секунд). А JS - это бред! Для чего уникальный контент, если его не видит SE?
 
и будут ваши юзвери стоять в очереди на контент )
 
Ну это совсем никакая защита, запрос исправить очень просто
Если проверять много параметров, в т.ч. и HTTP_REFERER, то можно зачительно усложнить разработку парсера.
Еще можно сделать,чтобы доступ к разделам информации,которую хотите защитить, можно сделать закрытым(доступным только авторизованным пользователям).
Аторизация парсером - тоже не проблема
Можно закодировать код специальными программами-обфускаторами.
:eek: в первый раз слышу про обфускацию html. Может ты имел ввиду php?
 
постановка вопроса некорректна.

от кого защищаемся то?
если от профи, то не поможет почти ни-че-го.
если от ламеров, то уже перечислили кучу способов выше.

а картинкой текст выводить тоже не вариант. уже много распознавалок существует) не удивлюсь если уже онлайн инструменты даже появились))
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху