как защитить скрипт от парсинга данных

Статус
В этой теме нельзя размещать новые ответы.

Rama-bak

Гуру форума
Регистрация
22 Апр 2007
Сообщения
206
Реакции
55
Приветствую всех!
подскажите, кто знает, как можно защитить сайт от парсинга данных. Для начала от автоматического, к тому же можно обсудить и от возможности защиты от ручного парсинга.
:)
 
Смотреть, если с одного айпи очень часто идут запросу - значит кто-то парсит автоматом и блокировать.
Можно к этому делу так же применить javascript, но боюсь поисковики тогда все плохо проиндексируют.
 
если этот контент действительно кому-то очень нужен, то никак

яваскрипт - по действию пользователя
капча при первом посещении с данного ип
юзерагент проверять и тп

а что такое "защитить от ручного парсинга" - вообще не очень понятно - звучит как закрыть информацию от лишних людей
тогда - только доступ пользователей с правами организовывать
 
  • Нравится
Реакции: irk
Приветствую всех!
подскажите, кто знает, как можно защитить сайт от парсинга данных. Для начала от автоматического, к тому же можно обсудить и от возможности защиты от ручного парсинга.
:)
Вообще занимался подобной темой.
Что доступно каждому:
Сделать 30 шаблонов с разной html разметкой и каждый день менять. Если сделать всё нормально, трудно будет написать шаблон для грабинга. Школьники пойдут лесом.

Если хорошо понимаешь тему кодинга:
1- генерируем текст JS. Для js пишем свой обфускатор + методов обфускации штук 15, и менять их каждый день. Чтобы грабить сайт нужно будет 15 дней следить за сайтом.
Как ломать:

2- Вместо JS использовать флэш и поступать аналогично- методов обфускации штук 15, и менять их каждый день.
Не ломается как JS за 5 минут, но для хороших проггеров AS не составит большой проблемы.

Если защитить нужно к примеру небольшой текст (напр. список прокси, который будет побликоваться на сайте), то это можно сделать довольно качественно: генерация картинки. Можно картинку тоже обфусцировать(эт тоже на флэш)

Если нужно ещё и сохранить текст для поисковиков, то можно разбавить текс бредо контентом, типо снипетов, ключевых слов, картинок. И естественно скрыть от пользователей и показывать только роботам (но люди с выключенным JS тоже будут видеть)
 
KillDead, серьезно.
Но что мне действительно мешает парсить так это изменение шаблона (html-кода) сайта :-]
 
Сделать 30 шаблонов с разной html разметкой и каждый день менять. Если сделать всё нормально, трудно будет написать шаблон для грабинга. Школьники пойдут лесом.

и сайт мимо поисковиков той же дорогой
все такие методы - только если нет задачи вывести что-то в топ
 
  • Заблокирован
  • #7
Есть метод от дураков) Один раз сам на такой напоролся))

В robots.txt прописать:

Код:
User-Agent: DISCo Pump, Wget, WebZIP, Teleport Pro, WebSnake, Offline Explorer, Web-By-Mail
Disallow: /

Но например в томже Телепорте достаточно поставить галочку "игнорить роботс.тхт" и всё, защита эта уже не работает))
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху