как защитить скрипт от парсинга данных

Тема в разделе "PHP", создана пользователем Rama-bak, 14 авг 2009.

Статус темы:
Закрыта.
Модераторы: latteo
  1. Rama-bak

    Rama-bak

    Регистр.:
    22 апр 2007
    Сообщения:
    207
    Симпатии:
    52
    Приветствую всех!
    подскажите, кто знает, как можно защитить сайт от парсинга данных. Для начала от автоматического, к тому же можно обсудить и от возможности защиты от ручного парсинга.
    :)
     
  2. omfg

    omfg

    Регистр.:
    4 авг 2009
    Сообщения:
    159
    Симпатии:
    46
    Смотреть, если с одного айпи очень часто идут запросу - значит кто-то парсит автоматом и блокировать.
    Можно к этому делу так же применить javascript, но боюсь поисковики тогда все плохо проиндексируют.
     
  3. betatest

    betatest

    Регистр.:
    3 дек 2007
    Сообщения:
    517
    Симпатии:
    127
    если этот контент действительно кому-то очень нужен, то никак

    яваскрипт - по действию пользователя
    капча при первом посещении с данного ип
    юзерагент проверять и тп

    а что такое "защитить от ручного парсинга" - вообще не очень понятно - звучит как закрыть информацию от лишних людей
    тогда - только доступ пользователей с правами организовывать
     
    irk нравится это.
  4. KillDead

    KillDead

    Регистр.:
    11 авг 2006
    Сообщения:
    883
    Симпатии:
    540
    Вообще занимался подобной темой.
    Что доступно каждому:
    Сделать 30 шаблонов с разной html разметкой и каждый день менять. Если сделать всё нормально, трудно будет написать шаблон для грабинга. Школьники пойдут лесом.

    Если хорошо понимаешь тему кодинга:
    1- генерируем текст JS. Для js пишем свой обфускатор + методов обфускации штук 15, и менять их каждый день. Чтобы грабить сайт нужно будет 15 дней следить за сайтом.
    Как ломать:

    5 минут. :D Просто запустить браузер програмно и посмотреть что сгенерировал JS. Хотя не все додумаются как.

    2- Вместо JS использовать флэш и поступать аналогично- методов обфускации штук 15, и менять их каждый день.
    Не ломается как JS за 5 минут, но для хороших проггеров AS не составит большой проблемы.

    Если защитить нужно к примеру небольшой текст (напр. список прокси, который будет побликоваться на сайте), то это можно сделать довольно качественно: генерация картинки. Можно картинку тоже обфусцировать(эт тоже на флэш)

    Если нужно ещё и сохранить текст для поисковиков, то можно разбавить текс бредо контентом, типо снипетов, ключевых слов, картинок. И естественно скрыть от пользователей и показывать только роботам (но люди с выключенным JS тоже будут видеть)
     
  5. alexz15

    alexz15

    Регистр.:
    3 окт 2008
    Сообщения:
    394
    Симпатии:
    189
    KillDead, серьезно.
    Но что мне действительно мешает парсить так это изменение шаблона (html-кода) сайта :-]
     
  6. betatest

    betatest

    Регистр.:
    3 дек 2007
    Сообщения:
    517
    Симпатии:
    127
    и сайт мимо поисковиков той же дорогой
    все такие методы - только если нет задачи вывести что-то в топ
     
  7. harashow

    harashow Читатель

    Заблокирован
    Регистр.:
    15 мар 2009
    Сообщения:
    35
    Симпатии:
    3
    Есть метод от дураков) Один раз сам на такой напоролся))

    В robots.txt прописать:

    Код:
    User-Agent: DISCo Pump, Wget, WebZIP, Teleport Pro, WebSnake, Offline Explorer, Web-By-Mail
    Disallow: /
    Но например в томже Телепорте достаточно поставить галочку "игнорить роботс.тхт" и всё, защита эта уже не работает))
     
Статус темы:
Закрыта.