Авто теги для текста

Тема в разделе "Как сделать...", создана пользователем D@nil, 20 июл 2009.

Статус темы:
Закрыта.
  1. D@nil

    D@nil

    Регистр.:
    1 окт 2006
    Сообщения:
    338
    Симпатии:
    122
    Есть желание реализовать авто генерацию тегов для своих постов.

    Идеи решения:
    Парсим большую базу с тегами (написанные человеком)
    Берем пост разбиваем на слова, выкидывая короткие и стоп слова.
    Ижем каждое слово в базе, если есть то ставим тег.

    Посмотрел как работают плагины для CMS. алгоритм почти такойже, только базы используют от _del.icio.us/popular/
    _www.flickr.com/photos/tags/
    _technorati.com/tag/

    Что можете посоветовать для русского текста? Есть у кого идеи где можно тегов достать? (писать руками не предлагать =) )
     
  2. venetu

    venetu

    Регистр.:
    28 мар 2007
    Сообщения:
    735
    Симпатии:
    261
    Ну как где, на бобрдобр, моеместо и т.д.
    По аналогии с делишез для англ.

    Тока я бы еще посоветовал переводить все слова в начальную форму, или хотя бы просто отбрасывать приставки-суффиксы. Больше шансов что найдет правильный тег в списке своем.
     
  3. ZCFD

    ZCFD

    Регистр.:
    16 янв 2008
    Сообщения:
    989
    Симпатии:
    437
    Написал такой скрипт для себя:

    разбивает текст на слова, переводит все слова в начальную форму, выбирает самые частовстречающиеся

    У функции на входе : текст, массив стоп-слов которые не нужно учитывать ( который, быть и т.д. базу нужно собирать вручную, уточняя, с каждым текстом число неважных слов будет уменьшаться), минимальная длинна слова, число слов на выходе )

    если нужно -- вечером выложу
     
    VadoZ нравится это.
  4. D@nil

    D@nil

    Регистр.:
    1 окт 2006
    Сообщения:
    338
    Симпатии:
    122
    Выкладывай конечно, интересно будет посмотреть.
     
  5. ZCFD

    ZCFD

    Регистр.:
    16 янв 2008
    Сообщения:
    989
    Симпатии:
    437

    На вход -- текст в Win1251

    1) текст очищается от тегов, приводится в нужный вид
    2) разбивается на слова
    3) слова приводятся к нормальной форме ( начальной )
    4) сортировка и подсчет
    5) выборка нужного числа, с учетом исключений
    6) выдача результата

    В архиве пример использования

    Архив : http://zcfd.by.ru/simple_autotags_by_zcfd.rar



    Пароль : 5mjAV96GYQTM@87D
     
    o_nix и D@nil нравится это.
  6. SkiLLer

    SkiLLer

    Регистр.:
    22 авг 2007
    Сообщения:
    307
    Симпатии:
    64
    Я еще для скриптов использую уже готовый класс:
    http://www.phpclasses.org/browse/file/15188.html
     
  7. D@nil

    D@nil

    Регистр.:
    1 окт 2006
    Сообщения:
    338
    Симпатии:
    122
    ZCFD
    То что надо, спасибо.

    теперь осталось прикрутить скрипт к базе человеко написанных тегов, и можно смело автоматом облако генерировать.

    SkiLLer

    Можешь вкратце рассказать принцип его работы.
     
  8. SkiLLer

    SkiLLer

    Регистр.:
    22 авг 2007
    Сообщения:
    307
    Симпатии:
    64
    С самим принципом работы я не разбирался, т.е. в коде не копался. А вот работать с ним просто, мы задаем текст, задаем параметры, и на выходе получаем набор тегов. С русским языком не очень, потому что это специфика русского языка, тут и склонения и падежи и т.д. а вот с английским довольно неплохо, как для автомата. В качестве параметров указывается минимальная длина для однословных тегов, двухсловных и трехсловных.
     
  9. D@nil

    D@nil

    Регистр.:
    1 окт 2006
    Сообщения:
    338
    Симпатии:
    122
    Вариант о котором я говорил используется зендроиде - http://www.nulled.ws/showthread.php?p=1106351#post1106351

    Надо теперь от туда базу достать, вдруг автор там хорошую насобирал =)
     
Статус темы:
Закрыта.