Совместная работа над словарями синонимов

Тема в разделе "Автоблоггинг", создана пользователем falc, 11 мар 2009.

Статус темы:
Закрыта.
  1. falc

    falc

    Регистр.:
    6 авг 2006
    Сообщения:
    345
    Симпатии:
    203
    Те словари, которые продаются местами очень ничего, но их делают отдельные люди в одиночку. А ведь если взяться сразу, к примеру, десятерым за словарик однозначных синонимов получится неслабая штука.

    Вот только надо разработать схему совместной работы над словарями. Для тренировки можно взять тот же словарь Тришина и довести его до ума. Можно в гугло-документах работать, можно в какой-нибудь crm. Есть у кого-нибудь мысли на этот счет?
     
  2. dee_motard

    dee_motard

    Регистр.:
    26 июл 2008
    Сообщения:
    247
    Симпатии:
    76

    Подобные мысли возникали, бо уже занимался облагораживанием баз.

    Проблема в организации труда. Если браться за Тришина, то нужен удобный и быстрый интерфейс чтобы удалять левые синонимы для каждого слова. И тут потребуется не десять человек а человек 30.
    Меня в день хватало максимум на 1000 слов, и то если постоянно квасить при этом.. :tcl: Если делать чтоб не в напряг, то триста слов в день просеять можно..
    Если наберётся достаточное количество добровольцев, то я могу дописать свой скрипт процеживания базы синонимов для работы с тришинской базой, и запустим его в онлайне с доступом всем учавствующим в проекте. Работает просто - задаешь порядковый номер синонима в базе (если разбить её на равные доли для каждого участника), скрипт выводит все синонимы с чекбоксами рядом с ними, нужно выделить те что не попадают, или отметить главным чтобы удалить всю запись, нажать на кнопку - и текущий отрабатывается, плюс тут-же грузится следующий. Чтобы вернуться к работе потом достаточно ввести порядковый номер синонима на котором остановились..

    Вдвоём тут ничего не сделать. Ну или нанимать людей.
     
  3. roddik

    roddik Колбаска

    Регистр.:
    26 янв 2007
    Сообщения:
    351
    Симпатии:
    285
    зачем изобретать велосипед? разработчики коммерческих прог уже все сделали, есть же на форуме база в 5к однозначных синонимов, вот если бы организовать ее так, чтобы по даному "слабохарактерный::слабый" обрабатывало так же падежи и остальное - можно было бы сделать нужную штуку

    а хайд зачем такой? привычка? :D
     
  4. falc

    falc

    Регистр.:
    6 авг 2006
    Сообщения:
    345
    Симпатии:
    203
    100 сообщений тут уже у большинства есть, снизил до 50.
    dee_motard, а разделить базу на 30 человек и каждому создать типа кабинета, когда последний заканчивает база объединяется и раздается, реально так?
    Надо окончательно определиться с системой и расписать алгоритм работы тут на форуме, тогда, больше чем уверен и народ наберется.

    слабохарактерный::слабый - это надо вручную дополнять. А что за словарь?
     
  5. roddik

    roddik Колбаска

    Регистр.:
    26 янв 2007
    Сообщения:
    351
    Симпатии:
    285
    да просто не понятно совсем зачем хайд больше 0, база от какого-то скрипта, не помню точно
     

    Вложения:

  6. Zerrikanez

    Zerrikanez Прохожие


    Базу ИМХО лучше делать корневого варианта однозначных слов...
    Написал, и понял что до самого бы не дошло, если б кто другой так написал...:crazy:

    Хмм.. пример что-то затрудняюсь сейчас привести. В общем суть в том, чтобы задействовать морфоанализ.
    Т.е. брать изначальную форму слов, а не делать к каждой форме синонимы.


    Правда это было бы бессмысленно, если б не было самой проги/скрипта который бы проделывал работу с морфоанализом...

    Так вот, наработки извлечения изначального слова есть, но честно говоря пока не нашол чего-то, что бы помогло мне переводить слово в какую-то форму(вроде бы легче должно быть...)

    Если есть какие-то библиотеки или исходники(на c/c++, на perl, на java, на php) для русского языка, готов немного поработать в этом направлении.

    п.с. Если что-то найдется(ну или сам найду, так как я пока не очень сильно искал), поделюсь с людьми из топика, которые будут делать базу, в обмен на саму базу. ;)
     
  7. dee_motard

    dee_motard

    Регистр.:
    26 июл 2008
    Сообщения:
    247
    Симпатии:
    76
    я могу базу однозначных синонимов расширить словоформами с учетом морфологии, разве что придется потом вручную проверить т.к. для каждого слова разное количество форм и иногда софт ошибается..

    Но та база однозначных что я отсюда качал - она не ахти. О какой однозначности можно говорить, когда там синонимы разного рода? И при подстановке такого синонима в текст сразу видно что он не "строит" с окружающими его словами.

    Zerrikanez, не надо далеко ходить, или стеммер Портера берешь, если нужно быстро и плевать на косяки, или phpmorphy, которая довольно тяжеловесна но зато даёт отличные результаты в русском.

    Но проблема с ними в том, что для разных слов и их синонимов количество форм слова может несовпадать, и в результате выберется неправильное соответствие.
     
  8. Urch

    Urch Вебмастер

    Регистр.:
    3 янв 2008
    Сообщения:
    263
    Симпатии:
    73
    идея хорошая только надо как то все организовать.
    какой то скрипт писать ну не знаю пока лучше продукта от smartbyte не встречал.

    кстати отличная вещь при составлении словаря использовать обязательно
    http://smartbyte.org/free_files/morph.rar
     
  9. Zerrikanez

    Zerrikanez Прохожие

    dee_motard
    Кстати да.... забьіл я что-то о phpmorphy.

    А стемер Портера разве не в реверсном режиме работает? Т.е. он вроде бьі только корень и определяет, у меня уже есть наработка, которая определяет изначальное слово:

    Бррр... Если нет подходящей формьі (хотя я что-то не могу сейчас придумать примера.... опять :) ), то _не_ заменяем, пропускаем слово, и в учет пропуска заменяем другое(чтобьі бьіл нужньій процент синонимизации).

    И все же, я думаю, что не так часто будет иметь место несовпадение количества форм.
     
  10. roddik

    roddik Колбаска

    Регистр.:
    26 янв 2007
    Сообщения:
    351
    Симпатии:
    285
    Так что, инициатива умерла? Я кстати тоже не прочь покодить, и да, палю тему 1. заменять можно и на антонимы ("там было много людей" - "там было мало людей", при этом слова типа "много", "мало", "быстро" и т.д. встречаются гораздо чаще и в разных текстах) 2. некоторые слова можно менять без потерь (пример: цвет: "вы получите черную кредитку" - "вы получите белую кредитку") 3. ну это боян наверное уже, но "кстати", "между прочим" и т.д. можно вставлять и удалять рандомом проблема этой темы в том, что участники хотят сходу, на этапе планирования, сделать офигенный продукт, который будет писать лучше среднестатистического человека, так вот это не получится, надо сначала сделать одну версию, потом ее проапрейдить и так далее, постепенно
     
Статус темы:
Закрыта.