как защитить сайт от парсинга?

Тема в разделе "Вопросы новичков", создана пользователем vesta-v, 23 апр 2011.

Статус темы:
Закрыта.
  1. vesta-v

    vesta-v

    Регистр.:
    25 окт 2007
    Сообщения:
    311
    Симпатии:
    14
    Добрый день, с моего сайта частенько парсят все новости. Я так понимаю что делается это по определенному шаблону, так вот поменяла названия блоков (div) все равно ничего не помогает. Причем в моем тексте стоят ссылки на внутренние страницы сайта, у того кто парсит - моих ссылок нет. То что это работа скрипта, 100% (добавляется почти сразу). Rss у меня только на краткую новость. Вобщем кто какие методы борьбы, кто может подсказать?
     
  2. doxx

    doxx |||llll|||||llll|||

    Регистр.:
    18 фев 2009
    Сообщения:
    1.059
    Симпатии:
    212
    а айпи парсера похожие в логах?Баньте его подсеть
     
  3. FunSeeker

    FunSeeker Писатель

    Регистр.:
    11 дек 2006
    Сообщения:
    4
    Симпатии:
    0
    а известно где потом твои новости появляются? в смысле, на каком количестве сайтов?
     
  4. good60

    good60 Постоялец

    Регистр.:
    26 авг 2008
    Сообщения:
    102
    Симпатии:
    35

    вот здесь блогер рассказывает,как боролся с парсингом
    http://peterq.ru/2009/02/parsyat-kontent-cherez-rss-kak-borotsya/

    Оригинально довольно таки :)
     
    FunSeeker и alies.boliev нравится это.
  5. FunSeeker

    FunSeeker Писатель

    Регистр.:
    11 дек 2006
    Сообщения:
    4
    Симпатии:
    0
    имхо, смена кода - не вариант... если топикстартер меняла имена div'ам, а сканирование продолжалось, то код придется менять довольно неслабо... весь layout, размещение слоев.. не менять же его каждую неделю...
    я бы сосредоточился на бэклинках и привлечении спайдеров поисковиков, чтобы как только у меня появилась новость - спайдера сразу ее съедали у меня первого... таким образом, первоначальным источником уникального контента буду я, а все остальные - уже копии...
    это на случай, если автор просто боится терять ранкинг из-за копий... но если же там важный контент, запрещенный автором к копированию, то се ля ви.. имхо никакие способы не помогут запретить перепечатывать материалы, будь то сканер или вручную...
     
  6. makia

    makia

    Регистр.:
    23 сен 2006
    Сообщения:
    273
    Симпатии:
    145
    Оригинально, но не эффективно. Такие ГС на автомате контент обычно парсят. Внешние ссылки почти всегда в них режутся. Плюс могут стоять определенные фильтры и стоп-слова на парсинг.

    Ускорение индексации ваших страниц. Вот пожалуй лучшее в данном случае решение.
     
  7. HellWorm

    HellWorm

    Регистр.:
    16 май 2007
    Сообщения:
    372
    Симпатии:
    59
    Всё же ускорение индексации здесь тоже не поможет. Поисковые системы ещё не научились на 100% определять первоисточник, я бы посоветовал развивать свой сайт, постоянно наполнять свежими статьями, увеличивать ссылочную массу, также ставить ссылки на все страницы где имеется уникальный контент. :)
     
  8. efs

    efs SEO оптимизатор дискрипторов одностраничных сайтов

    Moderator
    Регистр.:
    20 ноя 2009
    Сообщения:
    825
    Симпатии:
    475
    вставляйте в текст не ссылки, а просто упоминания вашего сайта. упоминания парсер резать не будет, а какая-то часть трафика возможно отправится к вам на сайт.
    тексты с картинками? картинки утягивают к себе или с вас показывают? если с вас, то настройте на отдачу для посторонних хостов картинки, на которой будет написано что новости цельнотянутые с такого-то ресурса.
     
    stanislavsss нравится это.
  9. Asin

    Asin

    Регистр.:
    18 авг 2008
    Сообщения:
    621
    Симпатии:
    390
    Упоминание легко редактируется.
    Ставьте скрытый текст со ссылками на ваш сайт.
    Подробнее например тут:

    http://invitext.ru/
     
  10. Mendel

    Mendel

    Регистр.:
    27 янв 2008
    Сообщения:
    217
    Симпатии:
    64
    Самый простой метод парсинга (сильно упрощенно:(
    1)Берем RSS
    2) Из него берем ссылку на оригинальную статью.
    3) по этому адресу ищем див, в котором присутствует текст из коротной новости в rss
    4) если текст присутствует в этом диве, то весь остальной текст с высокой вероятностью и есть полная версия статьи.

    Сюда можно добавить отбрасывание постоянной составляющей типа "это краткая новость с сайта сайт.ру, если интересно - переходите к нам" и прочие доработки, но общая идея сохраняется.

    Такому парсеру глубоко до лампочки как вы называете ваши дивы.
    Что с ним можно сделать? в идеале короткий анонс должен полностью отличаться от полной новости. Еще полезно разрывать контент на несколько дивов. Если анонс будет состоять из пяти дивов, и остальная часть еще из десятка, то парсеру будет не сладко.
    Можно еще попереставлять дивы средствами css, но это уже сильно на грани того чтобы осложнить жизнь еще и поисковикам.

    Шадлоны разбивки текста в идеале должны отличаться от страницы к странице. (несколько типовых схем сильно запутают оппонента).

    Еще одна эвристика поиска основного контента на странице:
    из rss мы берем только ссылки.
    Далее - див с самым большим количеством текста это наша искомая статья. (в идеале надо еще проверить плотность ссылок, чтоб не поймать менюху какую)....
    Защита здесь примерно такая же как в предыдущем случае.


    Вообще война парсинга и антипарсинга заключается в том, чтобы сложность парсинга превышала ценость контента - проще найти другой сайт чем с тобой воевать. Так что оценивайте целесообразность и необходимую сложность запутываний исходя из ценности контента который у вас есть....
     
Статус темы:
Закрыта.