Часто повторяемые слова

Статус
В этой теме нельзя размещать новые ответы.

rus-us

Гуру форума
Регистрация
8 Сен 2007
Сообщения
152
Реакции
74
Суть вопроса.
Нужно из куска текста выбрать список самых повторяющихся слов, ну или посчитать количество повторений для каждого слова.
Может есть готовые библиотеки?

пс. с названием темы слегка ступил
 
зачем библиотека ?,разбиваешь текст на массив слов и проходишь по массиву со счетчиком , сортируешь масиив по убыванию
можешь по-умноому слова в начальную форму преобразовывать при помощи phpMorphy


код не большой получится
 
Проще некуда.
PHP:
$arr=explode(" ", $text);
$arr_new=array_count_values($arr);
// $arr_new будет ассоциативный массив, в котором ключи будут словами, а значения количеством их повторений
Текст конечно можно разбивать используя какие-то более сложные алгоритмы, чтоб удалить всякий хлам, но пример думаю понятен...
 
Из соседней темы уже была ссылка

Разбивает текст на слова и предложения, подсчитывает вес слов.
 
Из соседней темы уже была ссылка
*** скрытое содержание ***
Разбивает текст на слова и предложения, подсчитывает вес слов.
Вроде бы сабж был тока о повторениях, но конечно из этого класса можно вытянуть че-нидь полезное для автора темы...
 
развивая тему- как подсчитать Процент содержания ключевика на странице? и еще такое дело... как доргены работают? как дорген запихивает именно 7% например ключевиков? он сначала высчитывает общую массу потом сколько надо ключевиков напихать? или как? я собрался писать хз как начать даже :nezn:
 
Вроде бы сабж был тока о повторениях, но конечно из этого класса можно вытянуть че-нидь полезное для автора темы...
Вес слова как раз есть его повторения, в процентах к общему числу слов.
 
  • Заблокирован
  • #9
А ту же задачу но для словосочетаний никто не решал? В идеале, с приведением в начальную форму...
 
Грамматический разбор html текста в кодировке UTF-8 на предложения и слова.

Для html текста делается нормализация
Для каждого слова подсчитывается его вес и вычисляется абсолютная и относительная позиция.
Поддерживаются английский, турецкий, русский, татарский языки.
Пришлось приложить много усилий, чтобы класс работал достаточно быстро.
C морфологией не разобрался правда еще
 

Вложения

  • TextParser-4.5.5.rar
    18,5 KB · Просмотры: 15
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху