Поговорим про марковку?

Статус
В этой теме нельзя размещать новые ответы.

VadoZ

Постоялец
Регистрация
23 Окт 2007
Сообщения
146
Реакции
57
Что-то часто стал слышать что марковку палят поисковики...
Обсудим почему так и пути улучшения?
Мне видится 2 момента по которым марковку можно спалить:
1) Частое повторение каких-то словосочетаний.
2) Неестественное расположение 3-х слов подряд (марковка, которая применяется допустим в том-же доргене санчеза гарантирует естественность расположени 2-х слов подряд, но в цепочке 1-2-3 пара 1и2 - слово выглядят естественно вторая пара (2и3-е слово)тоже, но вот тройка 1-2-3 нигде в человеческих текстах не встречается).

Ну и методы борьбы с этим:
1) Увеличения словаря при генерации (читать как увеличение обьема исходного текста)
2) Увеличение порядка цепочки - чтоб выбиралось не 2 слова подряд, а 3, 5 и т.д. Но тут главное тоже не переборьщить ибо если таки ПС пользуются алгоритмом шинглов, то мы можем потерять уникальность :-(

В идеале ИМХО совместить оба метода борьбы, но у меня так не получилось - слишком прожорливый скрипт вышел :-(

Интересно мнение гуру как по методам борьбы с узнаваемостью марковки так и по причинам такой узнаваемости.
 
Есть 1 очень простой способ, не использовать Маркова:) Любой более менее современный дорген имеет нормальный алгоритм генерации текста, сколько уже можно этого Маркова мучить? Помоему его уже давно гугля палит на раз два.
 
Согласен с Zmeyman
марков умер давно... что мешает использовать нормальный дорген, коих на нуллде полно. Если же самописный дорген нужен, код редбатона вроде открыт, можно и подсмотреть алгоритм генерации текста :)

А вообще ИМХО будущее за словарями синонимов :)
 
Есть 1 очень простой способ, не использовать Маркова:) Любой более менее современный дорген имеет нормальный алгоритм генерации текста,
Но ведь слепо идти по стопам чужого успеха это путь вникуда...
сколько уже можно этого Маркова мучить? Помоему его уже давно гугля палит на раз два.
В том-то и вопрос - как она его палит ;) . Хочется понимать процесс, а не тупо копировать.

Согласен с Zmeyman
марков умер давно... что мешает использовать нормальный дорген, коих на нуллде полно. Если же самописный дорген нужен, код редбатона вроде открыт, можно и подсмотреть алгоритм генерации текста :)

А вообще ИМХО будущее за словарями синонимов :)
А красную кнопку никто не палит? А завтра? А если учесть открытость кода? А как начнет палить будем ждать очередного релиза от Зератула :) ?. И опять таки палится стандартный марков , работающий с парами...

Неужели никто не пробовал маркова на тройках, четверках, пятерках... ? Неверю! Палите тему :D
 
В том-то и вопрос - как она его палит . Хочется понимать процесс, а не тупо копировать.
Текст сгенеренный марковым - генерится по определенной математической системе. Палится такой же математической системой. У гугли даже патент где-то был на выявление маркова
Вроде вот он Для просмотра ссылки Войди или Зарегистрируйся
 
Текст сгенеренный марковым - генерится по определенной математической системе. Палится такой же математической системой. У гугли даже патент где-то был на выявление маркова
Вроде вот он Для просмотра ссылки Войди или Зарегистрируйся
Патент очень интересный. К сожалению мой инглишь хромает, но насколько я понял там идет определение тематики текста по часто встречающимся ключам, потом ищут характерные ключи для этой тематики и их характерное кол-во.... В общем если помните шумиху с "тошнотой", то здесь нечто подобное, только гораздо глубже и интересней :).
Применительно к теме топика вывод примерно такой - в качестве исходного текста брать материалы одной тематики (не путать толстого с вышкой :) ) и опять таки применять маркавку не как средство получения из 1 кила контента 10 кил, а как средство его уникализации (ибо тошнота словосочетаний в рамках сайта будет неестественной). Если упираться только в уникализацию , то можно делать очень мощный словарь из которого рандомом выбирать пару (тройку, пятерку и т.д.)...

Еще один момент - кто-то говорил про обратимость цепей маркова. Если честно, то я никак не могу оптимизировать нормально скрипт генерации маркова работающий с 5-ками слов... даже не представляю ск-ко нужно ресурсов, чтоб эту цепочку обратить..... если это конечно возможно.

З.Ы.
Почитать патент, так все, жопа генерируемым текстам :).
Одно знаю точно - распространенные доргены, да еще и с открытым кодам лучше пользовать поостеречься.

З.Ы. З.Ы.
Прощелкал, что есть уже схожая тема. Модераторы, слейте пожалуста посты в эту
Для просмотра ссылки Войди или Зарегистрируйся тему.
 
морков вчерашний день, помню сколько с ним парился.
времены меняются :-]
 
2VaDoZ
не палит гугл еще кнопку. *постучал по дереву* Палил бы, доры бы так долго не висели... А как научится, уже будут новые более продвинутые алгоритмы генерации текста, т.к. написать алгритм выявления такого текста гораздо сложнее, чем генератор...
 
2VaDoZ
не палит гугл еще кнопку. *постучал по дереву* Палил бы, доры бы так долго не висели... А как научится, уже будут новые более продвинутые алгоритмы генерации текста, т.к. написать алгритм выявления такого текста гораздо сложнее, чем генератор...
У ред батона не выявят у него просто тупая подстановка ключевиков в текст так что такой метод хрен когда выявят закон хеша))
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху