Борьба с парсингом сайтов

Тема в разделе "Администрирование серверов", создана пользователем gts, 12 янв 2011.

Модераторы: mefish, stooper
  1. gts

    gts

    Регистр.:
    12 сен 2010
    Сообщения:
    271
    Симпатии:
    42
    Как можно запретить вытягивание с сервера страниц и скриптов через file_get_contents?
     
  2. Dimanf

    Dimanf Постоялец

    Регистр.:
    27 фев 2010
    Сообщения:
    66
    Симпатии:
    10
    проверять "клиента", которым качают. Если качают одни и те же c нецелевого региона или с хостнга, то забанить по IP
     
  3. latteo

    latteo Эффективное использование PHP, MySQL

    Moderator
    Регистр.:
    28 фев 2008
    Сообщения:
    1.404
    Симпатии:
    1.185
    У вас соседи вытягивают или некто и вы предполагаете, что это происходит с использованием file_get_contents?

    Добавлено через 1 минуту
    А как же домашние сети у которых по одному IP на 100-1000 пользователей?
     
  4. alfaexpert

    alfaexpert

    Регистр.:
    23 июл 2008
    Сообщения:
    183
    Симпатии:
    27
    Я обычно проверял так

    Если пустой User agent то сайт ничего не выводит либо делает редирект

    Если IP адрес принадлежит серверу или какому либо хостингу то баню, ну кроме конечно IP адресов легальных ботов яндекса гугла (проверять по whois!)

    Обычно парсят не из домашней сети, а с какого либо хостинга, так что тут лучше всего анализировать whois IP адресов
     
  5. Dimanf

    Dimanf Постоялец

    Регистр.:
    27 фев 2010
    Сообщения:
    66
    Симпатии:
    10
    и спамят тоже - я по whois столько IP китайских ботов запретил, что и спама на форумах стало меньше
     
  6. failometr

    failometr Постоялец

    Регистр.:
    30 апр 2009
    Сообщения:
    128
    Симпатии:
    45
    Если в статьях есть картинки, то на них наклеить водяные знаки вашего сайта. Это возможно не предотвратит парсинг, но сделает лишнюю рекламу для вас.
    А вообще можно сделать как на известных ресурсах вроде kinopoisk.ru или rabota.ru , вывод капчи при большом кол-ве и частых запросах, но это только усложнит парсинг. Полное решение это только бан по IP, что рисковано потерять реальных посетителей.
     
  7. gres_18

    gres_18 Pythonобандерівець®

    Регистр.:
    26 апр 2009
    Сообщения:
    407
    Симпатии:
    206
    Как выше уже говорилось, можно проверить User agent, можно пробить в whois, можно придумать еще 100500 вариантов проверки. Но контент всегда воровали, воруют и воровать будут. Потому лучше усилия направить в другое - конструктивное русло, а не морочиться с запретами. И последнее - если Вас парсят, значит Вас читают и Вы кому-то интересны. А это однозначно - позитивно :)
     
  8. Dimanf

    Dimanf Постоялец

    Регистр.:
    27 фев 2010
    Сообщения:
    66
    Симпатии:
    10
    gres_18, один раз подобные "позитивщики" сперли дизайн вместе со счетчиками - узнал когда увидел заходы на свой сайт... на неродном домене )))