Морфология в тексте дора. Yandex.

Тема в разделе "Вопросы новичков", создана пользователем dig555, 6 ноя 2009.

Статус темы:
Закрыта.
  1. dig555

    dig555

    Регистр.:
    22 июн 2007
    Сообщения:
    362
    Симпатии:
    148

    Тезисы:
    1). При читаемом и осмысленном сниппете пользователь активнее переходит на дор. А на доре текст пользователю показывать уже необязательно :) Ключевик в тексте должен стоять в нужном падеже и числе.
    2). Выпаливать доры по характеру текста очень легко. Разбросанный по тексту ключевик в единственной форме + тысячи таких страниц - это гарантированно дор.
    3). Яндекс проводит морфологический анализ текста. Посмотреть как именно можно с помощью этой программы: http://company.yandex.ru/technology/mystem/.
    Для начала хватит :)
    Есть морфологический анализатор и на PHP с поддержкой гипотез и очень неплохими библиотеками: http://phpmorphy.sourceforge.net/dokuwiki/demo
    Автор постоянно поддерживает библиотеку. И охотно даёт консультации по ней. Пишет скрипты на заказ.
    Задача. Написать нормальное ТЗ на написание функции генерации дорвейного текста с учётом морфологии, скинуться денежками, и заказать её написание у автора библиотеки. (Для справки - скорость работы библиотеки - более 700 словоформ в секунду на Duron 800. На современных машинах, конечно, ещё быстрее :)).
    Функция или класс будет представлена в двух видах:
    -отдельно, для интеграции в собственные доргены.
    -как замена функции KarlMarks() в RB.
    Примерное ТЗ.
    Исходя из заданной плотности текста, в исходной текстовке
    определяем какие слова или словосочетания подлежат замене.
    Определяем их форму (число, падеж, время). Берём наш ключевик, например, "звонки для мобильников". Ставим его в эту же форму (н-р, "звонков для мобильников", "звонок для мобильника", "звонками для мобильников") и заменяем убранное слово.
    При этом, в некоторых падежах, перед некоторыми словами опционально ставим характерные предлоги.
    Текст в результате получится просто шикарный и одним поводом для бана станет меньше, траф с ПС вырастет.
    Собственно, собираю желающих помочь с написанием полноценного ТЗ, и главное скинуться деньгами на реализацию вышеизложенной штуки :)


    обсуждать ТЗ.

    Когда тз будет готово будем набирать тех кто готов скинутся.
    Пишем только по функциям доргена, остальные вопросы - потом.
     
  2. mrr

    mrr

    Регистр.:
    21 окт 2007
    Сообщения:
    373
    Симпатии:
    390
    Можно проще: прогнать базу кеев через synauditor. Только не уверен, что он словосочетания поддерживает.
     
  3. ikolibri

    ikolibri

    Регистр.:
    3 ноя 2008
    Сообщения:
    205
    Симпатии:
    14
    а толку прогонять базу через какую-то программу?
    смысл того, о чем написал тс в том, чтобы поставить ключевик в правильной форме в нужное место. просто лишь прогнав ключи, этого не добиться

    кстати, интересно сколько стоил бы скрипт примерно.
    меня в общем-то интересует, но немного позже
     
  4. IgVan

    IgVan

    Регистр.:
    8 май 2008
    Сообщения:
    212
    Симпатии:
    54
    Что такое снипет? Ранее - мета-тег Дескрипшн, не уверен как к этому относится Яша, но гугль сейчас в снипет ставит фрагменты текста страницы, а не содержимое Дескрипшина. Посему фраза звучит крайне странно. ИМХО, бестолковый серчер, который перейдет на дор а потом еще и где-то на выдаче кликнет, больше смотрит на грамотно составленный Title, чем на снипет. С другой стороны, если будет толковый генератор контента, поучаствую в скидывании с удовольствием.
     
  5. grixann

    grixann

    Регистр.:
    8 фев 2009
    Сообщения:
    443
    Симпатии:
    41
    Интересная идея , хоть в этой сфере я нечего толком и не достиг.
    Чем смогу помогу , записуй меня скинемся деньгами и закажем скрипт
     
  6. HorrorTM

    HorrorTM Постоялец

    Регистр.:
    23 мар 2007
    Сообщения:
    85
    Симпатии:
    29
    Диг, я по составлению ТЗ не специалист, но по любому в доле.
    В любое время в аське, номер знаешь.
    Денежку по первому требованию скину.
     
  7. potuga

    potuga

    Регистр.:
    22 сен 2009
    Сообщения:
    376
    Симпатии:
    91
    совершенно не обязательно, что те слова, что вы найдете, будут одной и той же частью речи с ключами, не говоря уже о нескольких словах подряд (а ведь в большинстве ключей 2-3 слова без предлогов). Как тогда быть?

    К тому же не всегда получается верно определить часть речи, например моя (глагол мыть и местоимение). Для точого определение нужно анализировать все предложение, а это уже довольно трудоемкий и затратный в плане ресурсов процесс.
     
  8. SergeiSP

    SergeiSP

    Регистр.:
    13 фев 2007
    Сообщения:
    375
    Симпатии:
    115
    Неплохой морфологический генератор был включен в мод ред баттон морфология. Там мод под зендом, но может проще занулить его, поправить недочеты и юзать...
     
  9. arch14

    arch14

    Регистр.:
    7 июн 2009
    Сообщения:
    373
    Симпатии:
    186
    тоже заинтересован, но без понятия как такое сделать :( смотрю в сторону ДМИ-3 и Смартпейдж, у них вроде модули с неплохой морфологией, только слишком навороченные
     
  10. Lexx59

    Lexx59

    Регистр.:
    9 янв 2009
    Сообщения:
    179
    Симпатии:
    38
    Если что - я в теме. Давно уже думаю поменять генерацию текста в РБ.
    По сколько $ примерно надо?
     
Статус темы:
Закрыта.