Как выбрать самый близкий по тематике текст?

Тема в разделе "Как сделать...", создана пользователем roddik, 14 дек 2007.

Статус темы:
Закрыта.
  1. roddik

    roddik Колбаска

    Регистр.:
    26 янв 2007
    Сообщения:
    351
    Симпатии:
    285
    Привет! В общем ТЗ, есть допустим 100 текстов, добавляется 101ый, нужно в нем расставить линки на скажем 5 самых близких по тематике текстов. Как это сделать. Есть идея выбирать 5 самых частых терминов в тексте и потом смотреть где-термины такие же. Тут единственная проблема тогда: как узнать, что слово является термином? Если есть другие идеи, просим:) Спасибо!
     
  2. RomAndry

    RomAndry Постоялец

    Регистр.:
    21 ноя 2007
    Сообщения:
    102
    Симпатии:
    24
    если я правильно понял, то проще дополнительно хранить ключевые слова и тогда по ним, с релевантностью, делать выборку.
     
  3. medvoodoo

    medvoodoo Постоялец

    Регистр.:
    28 мар 2007
    Сообщения:
    89
    Симпатии:
    19
    similar_text и похожие строковые функции попробуйте, но вобще по ключам(RomAndry) это делать лучше и быстрее(bitrix,habrahabr и т.д.).
     
  4. MaxLord

    MaxLord

    Регистр.:
    17 фев 2007
    Сообщения:
    325
    Симпатии:
    49
    самое удобное - делать подборку ключевиков к статьям и сравнивать по ключам... similar_text нужного эффекта не даст...это вообще сюда не относится...
     
  5. censored!

    censored!

    Регистр.:
    3 авг 2007
    Сообщения:
    293
    Симпатии:
    106
    Скармливаешь текст скрипту, удалит все что не алфавит, удалить все что меньше четырех и больше 15 символов, переводишь всё в маленькие, всё в массив, считаешь повторяющиеся, сортировка по кол-ву от большего к меньшему, берешь, например, первые 10. Это и будет как-бы показатель статьи по ключевым.
    Т.е. так делаешь для всех.
    Потом, когда добавляешь, новую, также считаешь, и прочекиваешь по всем на количество совпадений. Где больше совпало - ту и берешь.
    ИМХО
    ...
    Либо сам статье назначай свои ключевые слова.
     
  6. roddik

    roddik Колбаска

    Регистр.:
    26 янв 2007
    Сообщения:
    351
    Симпатии:
    285
    я так и делаю сейчас - из первых 5 слов 4 - например "сказал" или что-то подобное
    окей, как выбрать из текста ключевые слова? вышеназванный способ работает хреново, знаю по собственному опыту

    и далее, допустим в тексте ключевик united states, как сделать, чтобы считалось вместе "united states", а не "united", "states"?

    вот пример, тут tag_cloud - именно по такому алгоритму, как предложил censored!, (в смысле что когда добавляется пост - считаются его ключевики и пишутся тэгами)
    http://dimmuborgirrr.freehostia.com/, economic тут нафик не нужно, так же как и service и learning...
     
  7. prostudent

    prostudent

    Регистр.:
    24 ноя 2008
    Сообщения:
    316
    Симпатии:
    5
    Подскажите пожалуйста - есть ли во фрихостии взять бесплатно поддомены - как на юкозе к примеру...Я предполагаю что можно - потому что вижу много доров на субдоменах фрихостии...но зашёл туда - и пока не нашёл - только как фри хостинг со своим доменом(или купить домен).Подскажите кто там не новичёк - как зарегистрироваться там и взять поддомен бесплатно?
    Спасибо
     
  8. everest

    everest

    Регистр.:
    20 дек 2006
    Сообщения:
    197
    Симпатии:
    20
    чтобы исключить слова типа "сказал" - нужно проредить текст на слова, встечающиеся во многих текстах сразу (например в 10 и более)...
     
  9. prostudent

    prostudent

    Регистр.:
    24 ноя 2008
    Сообщения:
    316
    Симпатии:
    5
    Почему не регится на фрихостии?

    Кто имеет опыт регить на фрихостии - подскажите в чём дело?
    Я зарегился, мне вылез ресит - с моим мылом и надписью что через 30 минут придут данные на моё мыдо - но уже часов 8 прошло - а письма с данными аккаунта так и не пришло...
    кто знает почему???
    Спасибо
     
Статус темы:
Закрыта.