Вопрос по тематической уникализации

Тема в разделе "Русские поисковики", создана пользователем Neow15ard, 22 мар 2009.

Статус темы:
Закрыта.
  1. Neow15ard

    Neow15ard

    Регистр.:
    27 ноя 2008
    Сообщения:
    422
    Симпатии:
    188
    Взял серверный синонимайзер который может среди всего прочего использовать фильтр стоп -слов.И возникла проблема как в техническом тексте автоматически опредилить стоп слова?
    Вернее можно ли считать слова с наибольшим весом стоп-словами?
    Причем основываясь не на одной статье , а сделать выборку пары тысяч(или сколько?) по всему тексту (скажем на 1-2 мб).
    Или стоит поискать словарь наиболее употребляемых слов а его потом наложить на ключевики и уже остатки в стоп слова?

    А то синонимайзер то меня устраевает но замены всяких "тормозная колодка" - "тупая колодка" не к месту.



    Взял синонимайзер здесь

    http://depositfiles.com/ru/files/7496934/
     
  2. MegO

    MegO Постоялец

    Регистр.:
    13 фев 2009
    Сообщения:
    130
    Симпатии:
    13
    Попробуй поискать словари. На медицинские, психологические и финансовые я точно находил. Думаю и технические есть.
     
  3. psknnn

    psknnn

    Регистр.:
    9 окт 2008
    Сообщения:
    379
    Симпатии:
    227
    если текст читаемый нужен, то словарь либо под заказ либо самому делать, стандартные даже тематические плохо делают... поскольку тема авто например ооочень широка, если нужно ремонт авто то и термины допустимы другие и замены не всегда актуальны... чем более узкую тему выделиш и более узкоспециализированый словарь найдеш-сделаеш-закажеш тем более читаемый будет... (мое мнение не найти... надо делать или заказывать)
     
  4. MegO

    MegO Постоялец

    Регистр.:
    13 фев 2009
    Сообщения:
    130
    Симпатии:
    13
    Ты конкретнее скажи свою тематику. Помогу может чем нибудь. Я последнее время много словарей скачал.
    Вот один нашёл, посматри.
     

    Вложения:

  5. ne0zx

    ne0zx

    Регистр.:
    1 ноя 2008
    Сообщения:
    212
    Симпатии:
    74
    Если хочешь читаемый текст, тут 1 варинат: собирать базу самому.
     
  6. Sparky

    Sparky Писатель

    Регистр.:
    10 мар 2009
    Сообщения:
    8
    Симпатии:
    0
    По моему самый лучший вариант это делать словарь самому, а на выходе уже редактировать полученный материал.
     
Статус темы:
Закрыта.