Массовая проверка уникальности статьи

KillDead · 7 Ноя 2010

В общем имеется много статей на английском языке. Задача- проверить, есть ли они в индексе у гугла.

Подскажите программу (или онлайн сервис), где можно было бы проверить сразу большое количество текстов. Бесплатно, т.к. повторов ожидается очень много, возможно под 80%.
--------------------
Или, есть ли у кого конкретные мысли, как через гугловский поиск, точно определить есть дубль у статьи или нет?

Alternator · 7 Ноя 2010

KillDead написал(а):
Или, есть ли у кого конкретные мысли, как через гугловский поиск, точно определить есть дубль у статьи или нет?

да.
методом шинглов
но так как количество запросов будет примерно равно количестыу слов, то вам придется запастись ОЧЕНЬ большой пачкой прокси.
метод шинглов является основным для данной задачи, поэтому для десктопных программ также придется запастись проксями

KillDead · 7 Ноя 2010

Alternator написал(а):
да.
методом шинглов
но так как количество запросов будет примерно равно количестыу слов, то вам придется запастись ОЧЕНЬ большой пачкой прокси.
метод шинглов является основным для данной задачи, поэтому для десктопных программ также придется запастись проксями

ну, если этот метод сложнореализуем - то от него следует отказаться.
В принципе, мне даже не нужно узнавать процент уникальности статьи- текст либо весь выложен в инете, без всяких изменений (или с искажениями- там переносы строк), либо его нет.

Вроде звучит легко- поискать по точному соответствию, для выбранной фразы из 6-10 слов из текста, это я и реализовал, но в этом методе встретились ошибки- 1- уникальный текст опр. как неуник, 2- неуник опр как уник:
1) Бывало так что фраза, которая выбиралась, была довольно часто встречающейся. И уникальный текст определялся как вообще неуникальный.
2) не смотря на то, что фразы я выбирал по всему тексту, по 3 штуки- всё равно, для них гугл не находил точное соответствие.

Можно конечно увеличить количество поисковых фраз, но тогда вероятность 1 ошибки возрастает. Есть вариант, поискать и остальные фразы на этом сайте. Но если "фраза популярна"- это будет оч много запросов.

Пока, ищу метод, который максимально уменьшил запросы у гугле и давал адекватные результаты

Hilo · 8 Ноя 2010

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Alternator · 8 Ноя 2010

KillDead написал(а):
ну, если этот метод сложнореализуем - то от него следует отказаться.
В принципе, мне даже не нужно узнавать процент уникальности статьи- текст либо весь выложен в инете, без всяких изменений (или с искажениями- там переносы строк), либо его нет.
Вроде звучит легко- поискать по точному соответствию, для выбранной фразы из 6-10 слов из текста, это я и реализовал, но в этом методе встретились ошибки- 1- уникальный текст опр. как неуник, 2- неуник опр как уник:
1) Бывало так что фраза, которая выбиралась, была довольно часто встречающейся. И уникальный текст определялся как вообще неуникальный.
2) не смотря на то, что фразы я выбирал по всему тексту, по 3 штуки- всё равно, для них гугл не находил точное соответствие.
Можно конечно увеличить количество поисковых фраз, но тогда вероятность 1 ошибки возрастает. Есть вариант, поискать и остальные фразы на этом сайте. Но если "фраза популярна"- это будет оч много запросов.
Пока, ищу метод, который максимально уменьшил запросы у гугле и давал адекватные результаты

вы бы хот бы погуглили про шинглы, что ли
Они простые как пять копеек.
то, что поисковики не сильно рады такой работе с ними, это уже не сложность реализации, а сложность работы с методом.

ваши упомянутые действия вообще-то и есть по-сути метод шинглов, только без систематического подхода.

метод шинглов примерно так выглядит:
1)сперва создается база существующих текстов(среди которых и проверяем уникальность).
Эта база должна в себя включать цепочки по 6 (6-длина шингла.может быть и другой) слов.
в качестве такой базы идеально подходит ПС, так как он уже проанализировал много текстов, и позволяет искать в себе такие цепочки
2)анализируемый текст разбивается на все возможные цепочки из 6-и подряд идущих слов.
то есть с перввого по 6-е слово
затем со 2-го по 7-е
и т.д.
3)каждый из шинглов анализируемого текста проверяется на вхождение в базу.
4)на выходе получаем процент шинглов не найденных в базе.
это и есть уникальность во многих программах.

вы же выбираете изх текста случайные шинглы, а не все, и это способствует проблемам и ошибкам.

Если вы ищите 100-% дубликат, то можно так:
выбираем набор различных шинглов.
для тех, которые нашлись в ПС, скачиваем всю выдачу ПС-а.
важно, чтобы это была и вправду вся выдача.
среди текстов на сайтах из выдачи ищем наш, уже полной сверкой шинглов.
при этом мы сущесвтенно уменьшим количесвто запросов на ПС, но за кадром останутся плохо синонимизированные дубликаты.
зато полные копии мы найдем, если они вообще есть

KillDead · 11 Ноя 2010

Alternator написал(а):
вы бы хот бы погуглили про шинглы, что ли
Они простые как пять копеек.
то, что поисковики не сильно рады такой работе с ними, это уже не сложность реализации, а сложность работы с методом.

ну, это я и имел ввиду- нужно будет делать кучу запросов, что не будет работать- даже после ввода капчи несколько раз- гугл блокирует ип. Не получается проверить множество текста сразу. Прокси юрзать- зачит потерять в скорости очень много.

В принципе- чтобы определить 100% дубль практически всегда достаточно 3 запроса на точное соответствие. Тем самым мы отбросим 85% и будем проверять уже небольшое количество статей.
--------
Я что-то никак не могу взять в толк как работает тотже Advego Plagiatus - он шлёт в ПС ключевые фразы, получает список урлов на которых может быть статья, затем запрашивает эти страницы и и ищет методом шинглов соответствия.
Но как он отбирает эти ключевые фразы? Ведь самый большой недостаток этого метода- обычные сайты, это не гугл, который всегда доступен без задержек. Сайт может долго отдавать статьи, что сделает проверку нерациональной. Не говоря о том, что если он лежит в данный момент- наша статья будет уникальной. Так что большое количество таких сайтов набирать нельзя.

Есть ещё идеи?

doxx · 21 Ноя 2010

тоже ищу удобный сабж..
пользуюсь адвего, недоволен, много ошибок, часто неуник за уник выдает..

Добавлено через 2 минуты
на проверку уходит много времени.. вариант со строчками поисковике не катит

Crucifer · 21 Ноя 2010

Хорошая пакетная проверка есть Для просмотра ссылки Войди или Зарегистрируйся.

Выставляйте шингл больше и таймауты увеличивайте для ПС, пусть потихоньку проверяет, прога сама рассортирует статьи.
Если за деньги и побыстрее то можете в ней добавить свой ключ на антикаптчу.

KillDead · 27 Ноя 2010

Crucifer написал(а):
Хорошая пакетная проверка есть Для просмотра ссылки Войди или Зарегистрируйся.
Выставляйте шингл больше и таймауты увеличивайте для ПС, пусть потихоньку проверяет, прога сама рассортирует статьи.
Если за деньги и побыстрее то можете в ней добавить свой ключ на антикаптчу.

Прога конечно хорошая, множество настроек, разных поисковиков, гораздо приятнее и мощнее чем адвего. Но вот всё равно очень много времени нужно. Это не критично, думаю, это нормально для использования этого метода. Хотя можно оптимизировать и тп....
Но вот у проги есть один недостаток- лично у меня память не выгружается. После проверки сотни текстов- 700мб занято этой прогой. Так что поставить на ночь- отпадает.

bork75 · 27 Ноя 2010

Уникальность текста.

Скинул всё кучей, с чем сам работал или работаю

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Массовая проверка уникальности статьи

KillDead

Хранитель порядка

Alternator

Постоялец

KillDead

Хранитель порядка

Hilo

Хранитель порядка

Alternator

Постоялец

KillDead

Хранитель порядка

doxx

|||llll|||||llll|||

Crucifer

Мой дом здесь!

KillDead

Хранитель порядка

bork75

The Team