Вес слова в тексте.

Тема в разделе "PHP", создана пользователем afonya09, 12 ноя 2009.

Статус темы:
Закрыта.
Модераторы: latteo
  1. afonya09

    afonya09

    Регистр.:
    31 янв 2009
    Сообщения:
    260
    Симпатии:
    18
    Как определиьь вес слова в тексте? Тоесть выделить те слова которые кратко описывают смысл текста.
     
  2. tostrss

    tostrss

    Регистр.:
    16 окт 2007
    Сообщения:
    771
    Симпатии:
    217
    Ну если у текста есть описание, титл то из него.
    В принципе вес слова можно определить, как часто оно в тексте встречается (ну убрать всякие предлоги, междометия и т.д.)
     
  3. afonya09

    afonya09

    Регистр.:
    31 янв 2009
    Сообщения:
    260
    Симпатии:
    18
    Такой подход не совсем корректно определяет ключевые слова.
     
  4. ar4ik

    ar4ik

    Регистр.:
    26 ноя 2007
    Сообщения:
    331
    Симпатии:
    95
    тут еще нужно будет добавить много исключений

    кажется в яху api, была такая фишка как выделение основный кеев из текста
     
  5. tostrss

    tostrss

    Регистр.:
    16 окт 2007
    Сообщения:
    771
    Симпатии:
    217
    Взято с википедии. Т.к. лингвистически очень сложно сделать (можно будет у каких-нить сервисов воспользоватся готовым api), то проще всего воспользоватся математическим методом.
     
  6. afonya09

    afonya09

    Регистр.:
    31 янв 2009
    Сообщения:
    260
    Симпатии:
    18
    У каких сервисов, можно взглянуть?
     
  7. Softrix

    Softrix Постоялец

    Регистр.:
    9 июл 2008
    Сообщения:
    65
    Симпатии:
    4
    В принципе еще можно, подсчитать колличество повторяющихся слов и словосочетаний, те что встречаются наиболее часто, те и можно выделять как ключевые. Ну плюс еще окончания учесть, но это не особо сложно.
     
  8. everest

    everest

    Регистр.:
    20 дек 2006
    Сообщения:
    197
    Симпатии:
    20
    Вообще соответствие документа и запроса можно определить по формуле TF/IDF.

    Что касается одной страницы - то тогда страницу нужно почистить от СТОП-слов, потом выкинуть наиболее используемые/частотные слова (которые смысло то и не несут).
    Ну и хорошо бы смысл текста разбирать.
    Можно почитать здесь
    http://www.dialog-21.ru
     
  9. afonya09

    afonya09

    Регистр.:
    31 янв 2009
    Сообщения:
    260
    Симпатии:
    18
    Что-то конкретное есть, алгоритм может.
    Вариант с подсчетом количества совподений и выводом топа не подходит!!!
     
Статус темы:
Закрыта.