Воруют контент - парсят каждую статью. Что можно сделать?

Тема в разделе "Вопросы новичков", создана пользователем itpeople, 6 фев 2010.

Статус темы:
Закрыта.
  1. itpeople

    itpeople

    Регистр.:
    6 дек 2007
    Сообщения:
    546
    Симпатии:
    62
    Есть СДЛ с регулярно обновляемым контентом. Wordpress. Контент уникальный.
    Случайно нашел сайтик, который уже 6 месяцев тянет каждую публикацию - даже размещаемые статьи лиекса :D

    Вырезает из статей все ссылки, все картинки, берется только текст. В конце ставит ссылку на источник, но закрывает в noindex, nofollow.
    Статью прогоняет через синонимайзер, но похоже только некоторые абзацы, а не всю статью целиком, причем синонимизируется до нечитаемого текста :)

    Теоретически не исключаю того, что контент парсит не один сайт и особо предпринимать то нечего.

    Защититься от этого думаю сложно. Но по всей видимости это автоматический парсинг - от него как-то можно попробовать защититься?
     
  2. termit.

    termit. Постоялец

    Регистр.:
    12 мар 2008
    Сообщения:
    67
    Симпатии:
    31
    Сначало, думаю стоит обратиться к админу сайта и попросить его убрать noindex и nofollow. Если откажется, то напиши в техподдержку Яндексу и скажи, что это злобный вор твоего контента, к тому же ещё и кривой синонимайзер использует. Если контент правда становится нечитаем, то такому сайту бан обеспечен!
     
  3. betatest

    betatest

    Регистр.:
    3 дек 2007
    Сообщения:
    517
    Симпатии:
    127
    ставишь статью без единой ссылки, добавляешь её на индексацию, ждешь, пока проиндексируется, потом подключашь внутренние ссылки, как "должны быть"

    без ссылок - её не отпарсят, а после индексации - уже не так важно
     
  4. Klepach

    Klepach

    Регистр.:
    31 окт 2008
    Сообщения:
    941
    Симпатии:
    250
    Смирись и забудь, ты не первый и не последний, даже если его хостеру напишешь и тот его пуганёт, то воришка просто перевезёд этот сайтег на другой.
    Если хочешь жаловаться или просить о помощи, лучше места нат, чем темы с граберами контентов.
     
  5. itpeople

    itpeople

    Регистр.:
    6 дек 2007
    Сообщения:
    546
    Симпатии:
    62
    Можно сказать, что я и смирился, т.к. придерживаюсь политики яндекса "делайте сайт для людей и все будет в порядке", но раз это делается на автомате - может всеже есть способы как-то насолить человеку, я просто совсем не знаю, как работают парсеры - может нужно закрыть все карты сайтов и убрать rss или ничего из все же лучше забить?
     
  6. General Fizz

    General Fizz Боевой Генерал :)

    Регистр.:
    11 апр 2007
    Сообщения:
    753
    Симпатии:
    396
    Насчет защиты от парсинга - тема уже была, в поиск. Есть парочка модулей для Апача - они блокируют ИП клента, который делает больше чем N запросов в единицу времени.

    Модули mod_evasive, limitipconn.
     
  7. venetu

    venetu

    Регистр.:
    28 мар 2007
    Сообщения:
    737
    Симпатии:
    263
    Только лучше все-таки не банить, а просто вычислить ip, с которого он тебя граббит (90% что это тот же самый ip, что и у его сайта), и добавь в .htaccess rewrite_cond конкретно для этого ip. И когда этот ip в следующий раз будет лезть к тебе за контентом, подмешивай ему всякий мусор в статью - типа там стоп-слов, откусывания окончаний и т.п. Если он действительно грабит на автомате - он быстро таким контентом загонит себя в бан.

    Потому что если просто закрывать по ip - найдется тысяча проксей.
     
  8. vasya999

    vasya999

    Регистр.:
    14 дек 2006
    Сообщения:
    310
    Симпатии:
    45
    Имхо, единственный способ прекратить парсинг - закрыть фид, менять почаще хтмл код страниц. На какое то время тянуть перестанут.

    Все остальное, как то: банить айпи, совать чето в код и т.п. геморные и неэфффективные.
     
  9. doxx

    doxx |||llll|||||llll|||

    Регистр.:
    18 фев 2009
    Сообщения:
    1.058
    Симпатии:
    212
    ну так если он авторские права то ставит, просто с ноиндексом, то так-то все законно))
     
  10. swseo

    swseo Читатель

    Заблокирован
    Регистр.:
    31 янв 2010
    Сообщения:
    76
    Симпатии:
    19
    В вордпрессе есть премодерация, можно не размещая на сайте скармливать статью поисковику и как статья попадает в индекс Вы ее публикуете на сайте.
     
Статус темы:
Закрыта.