Предлагаю объединить усилия и создать базу синонимов.

Тема в разделе "Мегафлуд", создана пользователем kutuzov, 19 сен 2008.

Статус темы:
Закрыта.
  1. kutuzov

    kutuzov Писатель

    Регистр.:
    12 сен 2008
    Сообщения:
    9
    Симпатии:
    3
    Значит так.
    Суть моего предложения такова: объединиться всем заинтересованным лицам и создать нормальную базу синонимов.
    Нормальная в моем понимании - это та, которой можно нормально пользоваться.
    Конечно, можно нарыть много готовых баз, но пользоваться ими ... В общем, сами понимаете.
    Нужна база совершенно иного качества.

    Такую базу реально можно сделать только вручную, обдумывая каждое слово.
    В одиночку такую работу проделать можно, но для этого нужно очень много времени и огромная сила воли, так как процесс подбора синонимов очень нудный.
    Запала обычно хватает на несколько дней, потом на это дело обычно забивается ...:D

    А если объединиться, разделить объем работы на части, то каждому достанется совсем по чуть-чуть.
    Например, для базы синонимов в 100 тысяч слов раскладка будет такая:

    Если 100 человек - то каждому нужно обработать 1000 синонимов;
    если 50 человек - то по 2000 синонимов.
    Если меньшее количество людей, то объем будет побольше, но в любом случае это несколько тысяч синонимов.

    Согласитесь, что обработать несколько тысяч (максимум) слов гораздо проще, чем несколько десятков тысяч.
    Уйдет на это времени - максимум неделя (без учета организационного периода). Итого через неделю мы заимеем нормальную рабочую базу синонимов. (На самом деле их будет гораздо больше - но об этом позже).
    Например, 50 человек, каждому по 2000 синонимов - делим на 7 дней - получаем, каждый день нужно обработать около 300 слов - согласитесь, это несложно.

    К тому же, работа в команде дисциплинирует - ведь каждый будет отвечать за свою часть работы перед всей командой.

    Вообще, весь процесс работы над этим проектом я представляю достаточно хорошо.
    Как и то, какая должна на выходе получиться база и как это осуществить.

    Осталось набрать команду.

    Высказывайтесь. Жду вопросов, предложений.

    Впереди два выходных дня - можно решить все организационные вопросы, а за следующую неделю все сделать.
    И к первому октябрю будет готовая база. :yahoo:
    ___________
    ПС. Просьба к модераторам, если не в тот раздел форума запостил, исправить, и, если можно, закрепить.
     
  2. diez

    diez

    Регистр.:
    1 ноя 2006
    Сообщения:
    182
    Симпатии:
    59
    речь идет о ру или eng синонимах ?
     
  3. porsche2

    porsche2

    Регистр.:
    18 ноя 2007
    Сообщения:
    667
    Симпатии:
    210
    База синонимов ничего толкового не даст, читабельным текст не будет! Нужен умный синонимайзер под который разобрана база.

    А 100 тругоголиков-активистов набрать на форуме почти не реально:)
     
  4. General Fizz

    General Fizz Боевой Генерал :)

    Регистр.:
    11 апр 2007
    Сообщения:
    753
    Симпатии:
    396
    Уже неоднократно обсуждалось, что любая база синонимов не имеет смысла без анализа контекста при замене.

    Можно составить только базу наречий.
     
  5. kutuzov

    kutuzov Писатель

    Регистр.:
    12 сен 2008
    Сообщения:
    9
    Симпатии:
    3
    Конечно не имеет смысла. Это будет просто голая база синонимов. А что с ней делать - это уже проблемы каждого пользователя. В том числе и как прикрутить анализ контекста.
    То есть нужен еще и нормальный синонимайзер.

    Лично для себя я это уже решил;). Мне нужна именно база синонимов.
    Я понимаю, что 100к слов я просто физически не осилю, поэтому и предлагаю объединиться.
     
  6. ozware

    ozware

    Регистр.:
    22 апр 2007
    Сообщения:
    327
    Симпатии:
    42
    в базе синонимов Тришина около 1М синонимичных связей, кто больше?:)
    ТС, делайте лучше анализатор контента
     
  7. kutuzov

    kutuzov Писатель

    Регистр.:
    12 сен 2008
    Сообщения:
    9
    Симпатии:
    3
    То, что в базе синонимов Тришина около 1М синонимичных связей - что с того? Да хоть 100 М. Толку только 0.
    Ну для синонимизации вручную подойдет. Задача ведь стоит - автоматизировать.

    Теперь по поводу анализатора контента;).

    Их есть у меня.
    Возможности:
    Определяет, о чем данный текст в общем и каждое предложение в частности.
    Используется база, в которой 2,9 М связей. Ну и словосочетаний - около 24 М.
    То есть для меня это пройденный этап:)

    Теперь мне нужен словарь синонимов, которые должны быть отобраны вручную.

    Один я не справлюсь.
    Вот я и подумал - вдруг найдутся желающие поучаствавать в проекте.

    Ведь лучше всей компанией есть торт, чем одному давиться дерьмом, не правда ли?
     
  8. Juri

    Juri

    Заблокирован
    Регистр.:
    5 окт 2007
    Сообщения:
    1.068
    Симпатии:
    197
    Уважаемый ТС собрать базу синонимов не сложно, сложно сделать так что б текст полсе автоматического прогона по ней был читабельный. в буржуйском языке все просто и синонимайзер на с++ был написан за 3 дня моим одногрупником, в русском все на много сложнее, куча правил куча исключений роды падежи склонения и прочее. вам уже говорили что база не проблема, проблема умный софт кторой сможет грамотно с ней работать.

    если текст обрабатывать в ручную то сойдут и базы которые уже лежат в паблике...
     
  9. kutuzov

    kutuzov Писатель

    Регистр.:
    12 сен 2008
    Сообщения:
    9
    Симпатии:
    3
    А я уже говорил, что софт не проблема. Проблема отобрать нужную базу.

    вы правильно заметили, что
    а также
    Я все это прекрасно понимаю, и поэтому и предлагаю создать базу, которая бы все это учитывала.

    Вообще я предложил создать базу синонимов, а не обсуждать сложности и тонкости создания умного софта.
    Никто не говорит, что это просто.
    Например у меня ушло на создание софта (который все это учитывает) несколько месяцев.
    На выходе получился аналог яндексовской весны. Текст читабельный полностью, только смысла нету. Ну плюс можно задавать процент кеев, стиль изложения, и все такое.

    Еще раз говорю - умный софт (учитывающий все правила исключения роды падежи склонения и прочее) написать не проблема.

    Вручную отобрать связи - вот проблема.
     
  10. General Fizz

    General Fizz Боевой Генерал :)

    Регистр.:
    11 апр 2007
    Сообщения:
    753
    Симпатии:
    396
    Это не есть четкий критерий, у каждого свое понимание как можно нормально пользоваться.


    100К слов не нужно, их столько не будет распространенных в русском языке, если не считать склоняемые словоформы. Достаточно примерно 10-15К.


    Тришинский словарь никуда не годится, в нем масса устарелых и практически неупотре***емых слов, а также весьма идиотских словосочетаний, при работе с реальным анализатором окружения используется примерно 2-3К синонимов. Для боевого применения кое-как подходит словарь Евгеньевой.


    Модифицированный алгоритм Маркова - не так ли?


    По поводу совместной работы: здесь уже были неоднократные попытки организовать оную, они ни к чему ни привели. Если совместно составлять словарь синонимов, то у каждого человека могут быть отличающиеся мнения по поводу отбора того или иного синонима. Тут главную роль играет общее развитие человека и меньше его образование, а у всех присутствующих они разные. Поэтому я оцениваю такого рода совместное творчество как весьма маловероятное.


    Из личного опыта: примерно год назад я тоже собрался вручную создать базу синонимов. Для этого сначала сидел сам пару недель, пока совсем не перестал понимать смысл слов :D, затем нашел парочку профессиональных лингвистов и передал дело им. Но даже предлагая им приличную сумму (до 1К$), тестовые синонимы, которые были ими отобраны, показали малую пригодность при работе на реальных текстах без учета контекста, к тому же крайне трудно было обьяснить этим людям четкие критерии выбора тех или иных синонимов, поскольку и у меня самого они вызывали неоднозначные толкования, причем в зависимости от настроения в данное время :D.


    Как вариант: сделать компиляцию всех баз, лежащих в паблике.
     
Статус темы:
Закрыта.