Вопрос по синонимизации.

Тема в разделе "Русские поисковики", создана пользователем the_stalker, 21 окт 2008.

?

Какая синонимизация лучше?

Голосование закрыто 11 ноя 2008.
  1. Слабая (вариант текста №1)

    0 голосов
    0,0%
  2. Глубокая (вариант текста №2)

    100,0%
Статус темы:
Закрыта.
  1. the_stalker

    the_stalker Постоялец

    Регистр.:
    19 фев 2007
    Сообщения:
    116
    Симпатии:
    3
    Вот стремаюсь на поводу того, что Яша может спалить автоматическую синонимизацию и забанить, ведь у них там наверняка есть какие-нибудь навороченные лексические алгоритмы обработки текста.
    Вот думаю, какая синонимизация лучше?

    Исходный текст:

    Как и любое масштабное мероприятие, Гран При Китая сопровождался различными событиями и происшествиями, часть из которых не имела прямого отношения к автоспорту. Например, британский Autosport рассказал о физическом столкновении, происшедшем в субботу между участниками съемочных групп двух телекомпаний – китайской CCTV и американской FOX TV.

    Телевизионщики толпились возле боксов BMW Sauber, поджидая Роберта Кубицу; всем было тесно, однако ассистент оператора CCTV попытался отвоевать для своей камеры побольше места – в ущерб коллегам из других телекомпаний. Когда ему предложили подвинуться, он отреагировал: «Если вы попросите повежливее».

    Просьба прозвучала вновь, уже в подчернуто вежливой форме, однако китаец ответил отказом. В этот самый момент из боксов показался Кубица. Американская съемочная группа попыталась потеснить несговорчивого конкурента, однако он неожиданно накинулся на иностранцев с кулаками. Оператор FOX TV повалился на соседа, а тот, в свою очередь, налетел на Кубицу.

    По свидетельству очевидцев, Кубице это явно не понравилось, он снова скрылся в боксах, а через несколько секунд на месте происшествия появился представитель компании Formula One Management (FOM), отвечающей за работу телевидения во время гонок, который и выпроводил разбуянившегося китайца за пределы паддока

    Слабая (более-менее вменяемый текст:(
    Как и любое масштабное мероприятие, Гран При Китая сопровождался различными событиями и происшествиями, половина из которых не имела прямого отношения к автоспорту. Например, британский Autosport рассказал о физическом столкновении, происшедшем в субботу между участниками съемочных групп двух телекомпаний – китайской CCTV и американской FOX TV.

    Телевизионщики толпились возле боксов BMW Sauber, поджидая Роберта Кубицу; всем было тесно, однако ассистент оператора CCTV попытался отвоевать для своей камеры побольше места – в ущерб коллегам из других телекомпаний. Когда ему предложили подвинуться, он отреагировал: «Если вы попросите повежливее».

    Просьба прозвучала вновь, уже в подчернуто вежливой форме, однако китаец ответил отказом. В этот самый момент из боксов показался Кубица. Американская съемочная группа попыталась потеснить несговорчивого конкурента, однако он неожиданно накинулся на иностранцев с кулаками. Оператор FOX TV повалился на соседа, а тот, в свою очередность, налетел на Кубицу.

    По свидетельству очевидцев, Кубице это открыто не понравилось, он опять скрылся в боксах, а сквозь несколько секунд на месте происшествия появился представитель компании Formula One Management (FOM), отвечающей за работу телевидения во время гонок, какой и выпроводил разбуянившегося китайца за пределы паддока

    Замененых слов ~3%

    Или наоборот более глубокая синонимизация в ущерб читабельности?
    Как и любое масштабное действо, Гран При Китая сопровождался различными событиями и происшествиями, количество из которых не имела прямого отношения к автоспорту. Например, британский Autosport рассказал о физическом столкновении, происшедшем в субботу между участниками съемочных групп двух телекомпаний – китайской CCTV и американской FOX TV.

    Телевизионщики толпились вблизи боксов BMW Sauber, поджидая Роберта Кубицу; всем было узко, и все-таки ассистент оператора CCTV попытался отвоевать для своей камеры побольше места – в ущерб коллегам из других телекомпаний. Когда ему предложили подвинуться, он отреагировал: «Если вы попросите повежливее».

    Просьба прозвучала сызнова, уже в подчернуто вежливой форме, и все-таки китаец ответил отказом. В тот самый что ни на есть миг из боксов показался Кубица. Американская съемочная группа попыталась потеснить несговорчивого конкурента, и все-таки он внезапно накинулся на иноземцев с кулаками. Оператор FOX TV повалился на соседа, а тот, в свою очередность, налетел на Кубицу.

    По свидетельству очевидцев, Кубице это очевидно не понравилось, он сызнова скрылся в боксах, а сквозь немного секунд на месте происшествия появился агент компании Formula One Management (FOM), отвечающей за работу телевидения во час гонок, тот, что и выпроводил разбуянившегося китайца за пределы паддока

    Замененых слов ~12%


    Просьба голосовать людям которые пробовали разные варианты.
     
  2. lexx-odessa

    lexx-odessa Постоялец

    Регистр.:
    28 мар 2007
    Сообщения:
    54
    Симпатии:
    28
    Кто тебе сказал что Яндекс палит автоматическую синонимизацию? Откуда такая инфа?

    Насколько я знаю палят автоматическую синонимизацию по стуку. Т.е. только человек может опознать это. Алгоритмы - нет.

    Если бы алгоритм опознающий человеческое происхождение текста существовал бы, тогда можно было бы с помощью тех же алгоритмов - генерировать неотличимый от написанного человеком текст.
     
  3. Alexxa12

    Alexxa12

    Регистр.:
    14 сен 2008
    Сообщения:
    203
    Симпатии:
    45
    Последний вариант потенциально содержит больше уникального контента. Об автоматическом бане синонимизированного текста яшкой пока нет упоминаний.

    Учитывая ресурсы яши, реализовать "антисинонимайзерный" фильтр несложно, поэтому синонимизация контента занятие малоперспективное в длительной перспективе.

    От первого варианта толку потенциально 0.
    От второго польза может быть, но риск "стука" гораздо выше.
     
  4. Pftriot

    Pftriot

    Регистр.:
    22 ноя 2007
    Сообщения:
    278
    Симпатии:
    226
    Симонимизировать нужно как минимум:
    а) с учетом морфологии русского языка;
    б) синонимизировать как минимум по частям речи;
    в) Процент уникального контента КАК МОЖНО выше.

    Со всего выше перечисленного делаем вывод: Второй вариант более приемлем.
    О методах синонимизации и уникализации контента, можно почитать например здесь:http://seomoney.org.ua/2008/07/satellity-i-vse-o-nix-sozdanie-unikalizirovannyx-satellitov-metody-unikalizacii-kontenta/
     
  5. Igorra

    Igorra Создатель

    Регистр.:
    25 ноя 2007
    Сообщения:
    47
    Симпатии:
    20
    Яндекс палит слабую синонимизацию. Проверено своим горьким опытом =\
     
  6. sound

    sound

    Регистр.:
    11 окт 2007
    Сообщения:
    222
    Симпатии:
    159
    В том числе и 2-й вариант, 12% - это недостаточно.
     
  7. artek

    artek Создатель

    Регистр.:
    1 мар 2008
    Сообщения:
    15
    Симпатии:
    3
    согласен.12 % глубокой синомизацией и назвать трудно. 25 % еще куда не шло. И речь идет не тольк о замене синонимами, а также о перестановке предложений.
     
  8. WuZi

    WuZi Постоялец

    Регистр.:
    2 окт 2008
    Сообщения:
    96
    Симпатии:
    37
    Результат парсинга словаря русских синонимов и сходных по смыслу выражений Н. Абрамова (18151 слово и 68729 синонимов)

    http://zhilinsky.ru/wp-content/uploads/files/Other/Development/abramov.txt


    Другая база синомимов

    http://zhilinsky.ru/wp-content/uploads/files/Other/Development/synonims.txt


    И еще - синонимов на 19 Мегабайт =)

    http://zhilinsky.ru/wp-content/uploads/files/Other/Development/rus-syn-prikol.txt.zip



    Это все конечно хорошо, но хотелось бы посмотреть на этого зверя

    http://synmaster.ru/slovar.php


    250$ стоит =(
     
  9. Ilyastar

    Ilyastar Постоялец

    Регистр.:
    13 апр 2008
    Сообщения:
    125
    Симпатии:
    19
    Если не против, хотел дополнить.
    г) Примерно от 20%. Но и в данном случае очень важной константой будет являться именно читабельность. Все конечно зависит от значимости проекта. Если для белого, то могут конкуренты по стуку в делспам отправить без проблем. Для гс, сплогов, расчитываем на алго, которому будет сложнее отличить "новый уник" от реального оригинала.
    Вот как раз т.н. метод мэшапа разрывает предложения, правда не всегда качественно, но, этот вариант гораздо лучше для обхода авто фильтров поисковиков и сервисов типа копискейп.
     
  10. Nike59

    Nike59

    Регистр.:
    13 ноя 2006
    Сообщения:
    459
    Симпатии:
    100
    Да, не я яндекс палит морфологию, а конкуренты и недовольные посетители стучат. Пока трафа мизер, почему-то яндекс "не палит" морфологию.
     
Статус темы:
Закрыта.