Анализатор текста. Тестируем.

Тема в разделе "Не достойно креатива", создана пользователем Mendel, 23 май 2008.

Статус темы:
Закрыта.
  1. Mendel

    Mendel

    Регистр.:
    27 янв 2008
    Сообщения:
    217
    Симпатии:
    64
    Написал сервис анализа текста.
    Выделение ключевых слов, определение тематики (спасибо garem за базу)
    немного статистики и поиск копий в интернете... в данный момент ищет в яндексе и как правило находит только четкие дубли или с минимальным количеством изменений потому что мало запросов яша дает. Потом подключу более интеллектуальные алгоритмы.
    Дизайна пока нет :)
    http://max.8kb.ru
    адрес временный, когда закончим тестирование я перенесу на основной домен и скажу новый адрес :)

    Сразу скажу что термины указанные в статистике придуманы "с потолка"... если предложите лучше буду благодарен... если есть мысли что еще вы бы хотели видеть то буду рад.

    Что вообще за цифры?
    В осоновном работа идет со списком слов из которых были отброшены стопслова, оценочные эпитеты и прочие "водянистые слова".
    Водность это процент отброшеных слов.. нормальное значение 30-60% помагает немного представить себе качество текста... лично я пользуюсь этим параметром чисто интуитивно..
    Вес первой десятки это каков процент в "обезвоженных словах" занимает первые десять слов из словаря..
    Срез 10/40% показывает сколько слов нужно взять чтобы получить 10/40% от обезвоженного словаря...
    эти три параметры помогают понять частотное распределение ключевиков и прочего.. "правильных" цифр несуществует, для каждой задачи свои..

    Чтобы было проще понять что такое "вода" с точки зрения сервиса я приведу два примера:
    Пример первый:
    Пример второй:
    В первом примере 100% воды, во втором 0% воды :)
    вообще конечно словарь будет еще правиться и правиться, но обая идея думаю ясна...
     
    Captain нравится это.
  2. dos03

    dos03 -----

    Регистр.:
    9 мар 2007
    Сообщения:
    871
    Симпатии:
    428
    Интересно. Ввел просто словосочетание (из двух слов), т.е. поисковый запрос ВЧ.
    В "Список сайтов на которых есть этот текст" выдал почти выдачу яши, несколько сайтов заменил местами (что интересно один в этой выдаче один из моих сайтов на 5-м месте), а в анализе выдал на первом. Понятно, что задача сервиса совсем в другом, но интересно как он оценивал ))
     
  3. Mendel

    Mendel

    Регистр.:
    27 янв 2008
    Сообщения:
    217
    Симпатии:
    64
    два слова это садизм :)
    он отбрасывает слова которые считает неважными (1-2 символа + словарь) и из того что осталось по определенному алгоритму вычисляет последовательности слов... потом эти последовательности по некоторой логике ранжируются, и из них формируется запрос к яндексу.. естественно эти последовательности берутся в кавычках... исходя из твоих слов я думаю ты получил выдачу по своему запросу в кавычках... попробуй интереса ради сравнить с кавычками...
     
  4. Simpson

    Simpson

    Регистр.:
    22 июл 2007
    Сообщения:
    373
    Симпатии:
    36
    Очень интересно... Дубли нашел. А с категориями 2 из 3 мимо. ((
    Еще момент - технические и специализированные тексты анализировать пока нельзя, правильно?
     
  5. Mendel

    Mendel

    Регистр.:
    27 янв 2008
    Сообщения:
    217
    Симпатии:
    64
    категории действительно слабоваты.. потому я их и вывожу по три.. чтобы хоть одна попала :)
    на самом деле надо будет почистить базу, но это по трудоемкости примерно 20 человекодней... много.

    можно... если осторожно :)
    но быть готовым к тому что результаты могут быть сильно неадекватными... у морфологии режим предсказания включен, так что теоретически проблем быть не должно, но качество анализа конечно пострадает...
     
  6. Bubbles

    Bubbles

    Регистр.:
    27 июл 2007
    Сообщения:
    327
    Симпатии:
    68
    Анализатор не работает:
    Код:
    Fatal error: Call to undefined function mybot2() in /home/zzzlabco/domains/8kb.ru/public_html/max/analiz.php on line 196
     
  7. Mendel

    Mendel

    Регистр.:
    27 янв 2008
    Сообщения:
    217
    Симпатии:
    64
    :) успели в те 10 секунд....
    я немного менял структуру кода, и когда вы зашли та библиотека в которой лежала эта функция еще не залилась... уже работает.
     
  8. dimabik

    dimabik

    Регистр.:
    14 мар 2008
    Сообщения:
    963
    Симпатии:
    179
    не знаю вроде работает... ввел словосочетании из трех слов вывел 3 категории все подходят очень хорошо.
     
  9. glumworks

    glumworks Создатель

    Регистр.:
    7 янв 2008
    Сообщения:
    18
    Симпатии:
    6
    Очень интересная штука. А как ее можно использовать, всмысле, для каких целей?
    Потестил, вроде результаты адекватные...
     
  10. puika

    puika

    Регистр.:
    25 ноя 2006
    Сообщения:
    262
    Симпатии:
    277
    Опробовал,достаточно быстро работает,категории тоже правильно определил,хотя текст интересный,не забудь написать новый адрес,как закончишь тестирование
     
Статус темы:
Закрыта.