Удалить неполные дубли в ключевиках

DuvE

Старатель
Регистрация
16 Май 2010
Сообщения
510
Реакции
10
Подскажите чем удалить менее полные ключевики, простой пример:

download nero
download nero pc
download nero pc version 4
download nero pc version 5

Надо чтобы остались только 2 последних, потому что содержат в себе слова из первых двух. Чем можно такое сделать?
 
выполнить кластеризацию и потом удалить все, что меньше определенного кол-ва слов?
 
Ну я показал то простой пример, если добавить к примеру пятую строку, в которой "download nero pc version 5 final", то уже так не получится. Нужно чтобы софт просто удалял строки, слова которых есть в других строках.
 
Последнее редактирование:
Сделать это можно на зеннопостере (если умеете писать шаблоны, то проблем возникнуть не должно.)
Но будет не очень быстро.
И осеивать он будет по началу ключевика, т.е.
Самокат в Минске
Купить самокат в Минске
он оставит оба.
Можно, конечно, сложнее его сделать, но это время работы еще увеличит.
И писать его будет сложнее (тот, о котором я говорю, можно вообще за 10 минут на коленке набросать)
 
Последнее редактирование:
А как отфильтровать в зенке такие ключевики к примеру:
купить книгу в Москве дешево
книгу дешево купить в Москве
купить дешево книгу в Москве
 
купить книгу в Москве дешево
книгу дешево купить в Москве
купить дешево книгу в Москве
это неявные дубли. Удалить можно кейколлектором, есть даже решение на экселе.
 

Вложения

  • Груши на рынке.7z
    7,6 KB · Просмотры: 8
это неявные дубли. Удалить можно кейколлектором, есть даже решение на экселе.
Как бы да, но не совсем то, так как нужно обрабатывать по несколько сот тысчь ) ключевиков, а с экселем это очень неудобно.
Кейколектора к сожалению нету.
 
Назад
Сверху