Получение лемм и словосочетаний из текста?

Тема в разделе "Как сделать...", создана пользователем Atec, 16 июл 2009.

Статус темы:
Закрыта.
  1. Atec

    Atec

    Регистр.:
    28 апр 2007
    Сообщения:
    296
    Симпатии:
    31
    День добрый всем, собственно имеется текст, необходимо с помощью пхп обработать текст таким образом чтобы получить 2 массива, "Наиболее часто встречающиеся леммы" и "Словосочетания"... собственно нужно чтобы работало как на http://www.be1.ru/stat/?url=www.nulled.ws%2F

    Помогите, выдумывать что либо не хочется, т.к. времени мало, думаю может у кого есть готовый класс, или хотя бы пару полезных функций, в общем помогите кто чем может, с меня спасибко :)
     
  2. Atec

    Atec

    Регистр.:
    28 апр 2007
    Сообщения:
    296
    Симпатии:
    31
    Народ, неужели никому не интересна данная тема :) это ж позволит делать ключи и описания очень просто и автоматом...

    У меня пока получается только выделить все слова и найти количество вхождений каждого из слов, но это для больших текстов очень много времени занимает...
     
  3. andrnag

    andrnag

    Регистр.:
    26 мар 2008
    Сообщения:
    350
    Симпатии:
    125
    Может поможет консольный вариант тузлы Яндекса для нахождения словоформ? (Можно было скачать раньше где-то в глубинах сайта Яндекса)

    Добавлено через 20 минут
    К сожалению не могу найти у себя то, что качал. И не помню названия программы.
     
  4. Atec

    Atec

    Регистр.:
    28 апр 2007
    Сообщения:
    296
    Симпатии:
    31
    Тулза была на php или WIN приложением?
     
  5. andrnag

    andrnag

    Регистр.:
    26 мар 2008
    Сообщения:
    350
    Симпатии:
    125
    компилируемое приложение. На сколько помню были версии и под win и под nix.

    Добавлено через 10 минут
    НАШЕЛ!

    http://company.yandex.ru/technology/mystem/

    Mystem называется! Оно позволяет раскладывать слово по составу, и определять его «параметры» (число, род и т.п.)


    Короче пригодится для выделения основной формы слова из какой-то производной!
     
Статус темы:
Закрыта.