Как найти дубли в базе

Статус
В этой теме нельзя размещать новые ответы.
на самом деле для тотального исключения дублей следует несколько изменить структуру базы, а именно:

1)создать таблицу со словами(корнями слов).
2)создать таблицу со ссылками корень слова-документ.

это базис для того, чтобы анализировать процесс вхождений определенных слов и схожести контента.

при добавлении объявления выдирать из него все слова в массив, брать из них корень, избавляться от вских "в", "на", формировать записи в таблицах описанных выше.
далее для анализа выкидываете допустим 10% полученных слов и смотрите нет ли в базе таких же документов. если есть - дубль.

геморно? да!
а смысл какой? доски объявлений созданы для сбора НЧ трафика с пс. есть дубли, нет дулей - какая разница :)
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху