Целесообразность маркова?

Статус
В этой теме нельзя размещать новые ответы.
  • Заблокирован
  • #11
Я тоже длительное время неверил в то что ПС может определить генерированый текст, впринципи я мыслил также как и ТС (что помоему логично).
Гдето в этой ветке мне всётаки ответили (там линк был на какуюто статью), пытался найти по твоей просьбе но так и ненашол =(
Почему же так важен текст ПС? Считается что ПС как бы отбрасывает шапки, менюшки и подвалы т.к. считает это навигацией и/или рекламой, вопщем чем угодно но нетем зачем приходит пользователь.
Соответственно ему есть смысл выделять ресурсы на анализ текста.
Цепочки маркова обратимы, т.е. получается что можно вывести исходный текст и отбросить ключевики, дальше сравнить текст с имеющимися и выявить дубли.

Для закрепления темы и избежания дальнейших вопросов можем всем миром сделать один дор на которм будет марков и другой например с текстом от редбаттона. Проверим кто проживёт дольше -)
 
Цепочки маркова обратимы, т.е. получается что можно вывести исходный текст и отбросить ключевики, дальше сравнить текст с имеющимися и выявить дубли.
Можно ли с этого места поподробнее?
 
Для закрепления темы и избежания дальнейших вопросов можем всем миром сделать один дор на которм будет марков и другой например с текстом от редбаттона. Проверим кто проживёт дольше -)
Уже проверял !!! И по эффективности вылазинья и по сроку жизни у меня дольше жил редбаттоновский. Да и вообще в реббаттоне алгоритмы рулёвые текст получается очень даже читабельный и человекообразный.
Ну хотя я не знаю может это у меня просто так получилось с экспериментом, но это факт!!!
 
Нереально. По сути им придется воссоздать человеческий анализ, чтоб на 95% (примерно) быть правыми.

По маркову.
Допустим русский язык, в словаре Даля 250к слов, представьте себе сколько вариантов, предложений можно создать осмысленных, учитывая все эти обороты речи, глаголы, всякие частицы, наречия, прилагательные, деепричастия, и естественно все уникальные. А если взять к примеру Шекспира, у него вообще сложная манера излагать свои мысли. А у людей есть такая штука, как неоконченная мысль, а тут нужно додумать, используя логику или еще что-то более глубокое... (и вот это последнее предложение, как робот определит, есть ли в нем смысл, это предложение сможет понять только человек).

это все домыслы
Все эти частицы деепричастия и глаголы используются по определенным правилам.
Как в русском так и в других языках есть определенные конструкции предложений. В английском вообще достаточно жесткая система постороения предложений. Так например предложение заканчивающееся предлогом думаю вызовет подозрение при машинном анализе текста на любом языке.
Генераторы по маркову уже научились составлять предложения в соотвествии с правилами граматики? Так не далеко до читабельного автогенерируемого контента;)
Хотя думаю есть более простые способы для определения автогенерируемого текста.

Можно ли с этого места поподробнее?

все известно достаточно давно, например вот
можете проверить качество своих генераторов
 
Так например предложение заканчивающееся предлогом думаю вызовет подозрение при машинном анализе текста на любом языке.
What are You talking about? If You sure so much in these rules, what are You waiting for? Try to generate by another methods, ways and so on.

:)
:p
 
  • Нравится
Реакции: Skie
не много не удачный пример выбрал надо было про артикли и падежи написать:D

в любом случае как мне кажется автоматически генерированному контенту осталось не долго жить так что надо клепать доры пока есть возможность и искать что то новое

советую обратить внимание на спам-фильтр в Gmail
насколько мне известно там стоит обучаемый Для просмотра ссылки Войди или Зарегистрируйся
думаю что то подобное у них готовится и для доров или уже готово но по каким то причинам не применяется
 
Генераторы по маркову уже научились составлять предложения в соотвествии с правилами граматики?
если исходный текст грамматически верен, то и сгенерируемый на его основе по Маркову останется таким же.
 
А вообще нахер этот марков, делаете синонимизацию на 30%, вставляете водные слова типа так как таким образом, на мое мнение и все текст будет гууд.
 
вот какраз синомизацию отловить гораздо проще чем маркова. Насчёт обратимости цепей маркова - если сгенерить текст на большой выборке и взять его часть то обратимости не будет
 
Большинство кто здесь пишет похоже вобще не сталкивались и не имели дело с генерацией текста на основе цепей Маркова. Текст не генирируется на осове какого-то исходного не большого текста.Если делать так,то уникальность по сравнению с ним действительно будет очень маленькая. (как делали здесь Для просмотра ссылки Войди или Зарегистрируйся)
Весь смысл алгоритма в анализировании огромного количества слов, обычно берется какая-то книга,и занесении в массивы информации о том какие слова идут за какими. А уже потом на основе этих данных составляется текст. Чем больше исходный текст,тем выходной более морфологически правильный.
И обратить такой алгоритм невозможно, т.к соотношение информации с помощью которой можно пытаться воссоздать исходный не уникальный текст 1:1000




Например вот марковский текст:
Champaign rival the hibachi doing television had view says tiredness behind gave off monster. Invincible furlough they for wounded men painted tank like horses began buttoning pinafore on turning. tufts dang my hard up friend. Hm fascination and naturally talking it press pool in le battre etre you right whistled. Unfortunately craftsmanship with fine print was discreetly at having. Castle whimpering at minored in lived affectionately as ten miles. Bentley merino wrapper was lull voice more cannonade in could leave word one gulp he appear. Sepulveda proclaimed that found nor understood the sat pickpocket. Compuserve frivolity with plump withdrawal in despair when bade him fourth among fields just behind while. Liberalism supposition is conscience darkened streets got plenty but be drawn from fever. Propose culprits but figured any barbecue inferno he ordinarily for unclaimed. Carty feedeth them cannot and shooting gallery full well because being afraid to choir. Battle span the staggered in signed up even don afraid of agitation. Vasilchikov needing any screen blinked an study! Alexey satisfaction as vain attempts knew so important than comprehensive the ignition. Another unreflecting nature does as rode cleared their sticks though barring the talkative

textalyser.net определяет его на 98.6% как уникальный.
Так же могу сказать что и google пока не очень продвинулся в этом отношении.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху