конечно, чистка ненужных меток из базы в 6000 - нелёгкая работка... я делаю так:
для получения меток использую программу wordtabulator. собственно говоря, программа анализирует частотность слов и словосочетаний в тексте. можно брать пару сотен наиболее часто встречающихся слов, и плагином simpletags помечать заметки.
возможно, всякие деепричастия (не знаю, что это такое) в облаке меток для человека и будут выглядеть странно, но в сателлите для поисковиков будет нормально.
полное описание программы _www.rvb.ru/soft/wt/wt.htm_
выдержки из описания
Программа WordTabulator предназначена для анализа текстов в среде Windows 9x/NT/2000/XP. Это удобный инструмент для построения упорядоченного индекса символьных элементов в заданном множестве текстов. Программа понимает тексты в основных русскоязычных кодировках (Win-1251, KOI8-r, DOS-866). Дополнительной возможностью является задание кодовой страницы ASCII, для которой множество символов алфавита обрабатываемых элементов ограничивается латинскими буквами. В качестве таких элементов могут быть словоформы, словосочетания или синтагмы.
Анализируемые тексты задаются совокупностью входных текстовых файлов в формате HTML или обычного текста. Программа может обрабатывать документы в формате HTML 4.01, игнорируя их разметку. Дополнительной возможностью анализа может быть обработка двух совокупностей текстов, которые можно сравнивать на общность или различие по составу исследуемых элементов.
Обрабатываемая совокупность элементов может быть сужена путем задания поисковых запросов, в которых допускаются стандартные символы маскирования (* и ?).
В версии 2.2 появилась возможность поиска всех видоизменений слова, заданного в базовой форме. Для этого используется генератор словоформ, построенный на основе грамматического словаря А.А.Зализняка.
Выходным результатом программы является файл, содержащий упорядоченный индекс искомых элементов. Упорядочение может производиться в алфавитном порядке или по частоте встречаемости. При сохранении выходного индекса в формате HTML-документа он дополняется ссылками на исходный контекст.
На размеры обрабатываемых совокупностей текстов никаких ограничений не накладывается - лишь бы выдержал компьютер.
конец цитаты
скачать программу можно где-то там же
кто что думает по поводу программы и моего подхода?