Массовая проверка уникальности статьи

Тема в разделе "Тех. вопросы", создана пользователем KillDead, 7 ноя 2010.

Статус темы:
Закрыта.
  1. KillDead

    KillDead

    Регистр.:
    11 авг 2006
    Сообщения:
    883
    Симпатии:
    540
    В общем имеется много статей на английском языке. Задача- проверить, есть ли они в индексе у гугла.

    Подскажите программу (или онлайн сервис), где можно было бы проверить сразу большое количество текстов. Бесплатно, т.к. повторов ожидается очень много, возможно под 80%.
    --------------------
    Или, есть ли у кого конкретные мысли, как через гугловский поиск, точно определить есть дубль у статьи или нет?
     
  2. Alternator

    Alternator

    Регистр.:
    23 мар 2009
    Сообщения:
    295
    Симпатии:
    145
    да.
    методом шинглов
    но так как количество запросов будет примерно равно количестыу слов, то вам придется запастись ОЧЕНЬ большой пачкой прокси.
    метод шинглов является основным для данной задачи, поэтому для десктопных программ также придется запастись проксями
     
  3. KillDead

    KillDead

    Регистр.:
    11 авг 2006
    Сообщения:
    883
    Симпатии:
    540
    ну, если этот метод сложнореализуем - то от него следует отказаться.
    В принципе, мне даже не нужно узнавать процент уникальности статьи- текст либо весь выложен в инете, без всяких изменений (или с искажениями- там переносы строк), либо его нет.

    Вроде звучит легко- поискать по точному соответствию, для выбранной фразы из 6-10 слов из текста, это я и реализовал, но в этом методе встретились ошибки- 1- уникальный текст опр. как неуник, 2- неуник опр как уник:
    1) Бывало так что фраза, которая выбиралась, была довольно часто встречающейся. И уникальный текст определялся как вообще неуникальный.
    2) не смотря на то, что фразы я выбирал по всему тексту, по 3 штуки- всё равно, для них гугл не находил точное соответствие.

    Можно конечно увеличить количество поисковых фраз, но тогда вероятность 1 ошибки возрастает. Есть вариант, поискать и остальные фразы на этом сайте. Но если "фраза популярна"- это будет оч много запросов.

    Пока, ищу метод, который максимально уменьшил запросы у гугле и давал адекватные результаты
     
  4. Hilo

    Hilo

    Moderator
    Регистр.:
    31 мар 2008
    Сообщения:
    911
    Симпатии:
    562
    Попробуй тута посмотреть
    У Зеброида есть такая функция.
     
  5. Alternator

    Alternator

    Регистр.:
    23 мар 2009
    Сообщения:
    295
    Симпатии:
    145
    вы бы хот бы погуглили про шинглы, что ли
    Они простые как пять копеек.
    то, что поисковики не сильно рады такой работе с ними, это уже не сложность реализации, а сложность работы с методом.

    ваши упомянутые действия вообще-то и есть по-сути метод шинглов, только без систематического подхода.

    метод шинглов примерно так выглядит:
    1)сперва создается база существующих текстов(среди которых и проверяем уникальность).
    Эта база должна в себя включать цепочки по 6 (6-длина шингла.может быть и другой) слов.
    в качестве такой базы идеально подходит ПС, так как он уже проанализировал много текстов, и позволяет искать в себе такие цепочки
    2)анализируемый текст разбивается на все возможные цепочки из 6-и подряд идущих слов.
    то есть с перввого по 6-е слово
    затем со 2-го по 7-е
    и т.д.
    3)каждый из шинглов анализируемого текста проверяется на вхождение в базу.
    4)на выходе получаем процент шинглов не найденных в базе.
    это и есть уникальность во многих программах.

    вы же выбираете изх текста случайные шинглы, а не все, и это способствует проблемам и ошибкам.

    Если вы ищите 100-% дубликат, то можно так:
    выбираем набор различных шинглов.
    для тех, которые нашлись в ПС, скачиваем всю выдачу ПС-а.
    важно, чтобы это была и вправду вся выдача.
    среди текстов на сайтах из выдачи ищем наш, уже полной сверкой шинглов.
    при этом мы сущесвтенно уменьшим количесвто запросов на ПС, но за кадром останутся плохо синонимизированные дубликаты.
    зато полные копии мы найдем, если они вообще есть
     
  6. KillDead

    KillDead

    Регистр.:
    11 авг 2006
    Сообщения:
    883
    Симпатии:
    540
    ну, это я и имел ввиду- нужно будет делать кучу запросов, что не будет работать- даже после ввода капчи несколько раз- гугл блокирует ип. Не получается проверить множество текста сразу. Прокси юрзать- зачит потерять в скорости очень много.

    В принципе- чтобы определить 100% дубль практически всегда достаточно 3 запроса на точное соответствие. Тем самым мы отбросим 85% и будем проверять уже небольшое количество статей.
    --------
    Я что-то никак не могу взять в толк как работает тотже Advego Plagiatus - он шлёт в ПС ключевые фразы, получает список урлов на которых может быть статья, затем запрашивает эти страницы и и ищет методом шинглов соответствия.
    Но как он отбирает эти ключевые фразы? Ведь самый большой недостаток этого метода- обычные сайты, это не гугл, который всегда доступен без задержек. Сайт может долго отдавать статьи, что сделает проверку нерациональной. Не говоря о том, что если он лежит в данный момент- наша статья будет уникальной. Так что большое количество таких сайтов набирать нельзя.

    Есть ещё идеи?
     
  7. doxx

    doxx |||llll|||||llll|||

    Регистр.:
    18 фев 2009
    Сообщения:
    1.059
    Симпатии:
    212
    тоже ищу удобный сабж..
    пользуюсь адвего, недоволен, много ошибок, часто неуник за уник выдает..

    Добавлено через 2 минуты
    на проверку уходит много времени.. вариант со строчками поисковике не катит:(
     
  8. Crucifer

    Crucifer

    Регистр.:
    6 фев 2007
    Сообщения:
    517
    Симпатии:
    249
    Хорошая пакетная проверка есть вот здесь.

    Выставляйте шингл больше и таймауты увеличивайте для ПС, пусть потихоньку проверяет, прога сама рассортирует статьи.
    Если за деньги и побыстрее то можете в ней добавить свой ключ на антикаптчу.
     
    KillDead и xd997 нравится это.
  9. KillDead

    KillDead

    Регистр.:
    11 авг 2006
    Сообщения:
    883
    Симпатии:
    540
    Прога конечно хорошая, множество настроек, разных поисковиков, гораздо приятнее и мощнее чем адвего. Но вот всё равно очень много времени нужно. Это не критично, думаю, это нормально для использования этого метода. Хотя можно оптимизировать и тп....
    Но вот у проги есть один недостаток- лично у меня память не выгружается. После проверки сотни текстов- 700мб занято этой прогой. Так что поставить на ночь- отпадает.
     
  10. bork75

    bork75 Д☼брая собака )

    Регистр.:
    21 июн 2008
    Сообщения:
    1.449
    Симпатии:
    716
Статус темы:
Закрыта.