Разбивка и статистика текста

Тема в разделе "Мегафлуд", создана пользователем lift, 10 июл 2011.

  1. lift

    lift Читатель

    Заблокирован
    Регистр.:
    1 июл 2007
    Сообщения:
    2.226
    Симпатии:
    1.378
    Собственно суть, есть текст и много. Разбить его в формат "одно предложение на одну строку" это 5 минут в TextPipe и готово.
    А как можно разбить полученый конечный файл на словосочетания по одному в одной строке? Вообще на сколько это реально сделать?
    И следом, если допустим все разбито, я могу эти словосочетания упорядочить тоже без особых проблем, тоесть все повторяющиеся будут подрят идти. Можно как то этот файл потом обвешать статистикой, посчитать сколько каждое словосочетание встречается раз, чтоб следом со статистикой этой работать?
    Тоесть на входе уменя список с предложениями в текстовом виде (если критично то в мускул загнать не сложно) а на выходе он весь обработаный в виде списка
    "словосочетание";N-раз встречается в тексте.