Поговорим про марковку?

Тема в разделе "Вопросы новичков", создана пользователем VadoZ, 7 апр 2008.

Статус темы:
Закрыта.
  1. VadoZ

    VadoZ Постоялец

    Регистр.:
    23 окт 2007
    Сообщения:
    146
    Симпатии:
    55
    Что-то часто стал слышать что марковку палят поисковики...
    Обсудим почему так и пути улучшения?
    Мне видится 2 момента по которым марковку можно спалить:
    1) Частое повторение каких-то словосочетаний.
    2) Неестественное расположение 3-х слов подряд (марковка, которая применяется допустим в том-же доргене санчеза гарантирует естественность расположени 2-х слов подряд, но в цепочке 1-2-3 пара 1и2 - слово выглядят естественно вторая пара (2и3-е слово)тоже, но вот тройка 1-2-3 нигде в человеческих текстах не встречается).

    Ну и методы борьбы с этим:
    1) Увеличения словаря при генерации (читать как увеличение обьема исходного текста)
    2) Увеличение порядка цепочки - чтоб выбиралось не 2 слова подряд, а 3, 5 и т.д. Но тут главное тоже не переборьщить ибо если таки ПС пользуются алгоритмом шинглов, то мы можем потерять уникальность :-(

    В идеале ИМХО совместить оба метода борьбы, но у меня так не получилось - слишком прожорливый скрипт вышел :-(

    Интересно мнение гуру как по методам борьбы с узнаваемостью марковки так и по причинам такой узнаваемости.
     
  2. Zmeyman

    Zmeyman

    Регистр.:
    21 авг 2007
    Сообщения:
    235
    Симпатии:
    76
    Есть 1 очень простой способ, не использовать Маркова:) Любой более менее современный дорген имеет нормальный алгоритм генерации текста, сколько уже можно этого Маркова мучить? Помоему его уже давно гугля палит на раз два.
     
  3. sfxer

    sfxer Постоялец

    Регистр.:
    11 фев 2008
    Сообщения:
    140
    Симпатии:
    20
    Согласен с Zmeyman
    марков умер давно... что мешает использовать нормальный дорген, коих на нуллде полно. Если же самописный дорген нужен, код редбатона вроде открыт, можно и подсмотреть алгоритм генерации текста :)

    А вообще ИМХО будущее за словарями синонимов :)
     
  4. VadoZ

    VadoZ Постоялец

    Регистр.:
    23 окт 2007
    Сообщения:
    146
    Симпатии:
    55
    Но ведь слепо идти по стопам чужого успеха это путь вникуда...
    В том-то и вопрос - как она его палит ;) . Хочется понимать процесс, а не тупо копировать.

    А красную кнопку никто не палит? А завтра? А если учесть открытость кода? А как начнет палить будем ждать очередного релиза от Зератула :) ?. И опять таки палится стандартный марков , работающий с парами...

    Неужели никто не пробовал маркова на тройках, четверках, пятерках... ? Неверю! Палите тему :D
     
  5. vasya999

    vasya999

    Регистр.:
    14 дек 2006
    Сообщения:
    310
    Симпатии:
    45
    Текст сгенеренный марковым - генерится по определенной математической системе. Палится такой же математической системой. У гугли даже патент где-то был на выявление маркова
    Вроде вот он http://appft1.uspto.gov/netacgi/nph...155.PGNR.&OS=dn/20060294155&RS=DN/20060294155
     
  6. VadoZ

    VadoZ Постоялец

    Регистр.:
    23 окт 2007
    Сообщения:
    146
    Симпатии:
    55
    Патент очень интересный. К сожалению мой инглишь хромает, но насколько я понял там идет определение тематики текста по часто встречающимся ключам, потом ищут характерные ключи для этой тематики и их характерное кол-во.... В общем если помните шумиху с "тошнотой", то здесь нечто подобное, только гораздо глубже и интересней :).
    Применительно к теме топика вывод примерно такой - в качестве исходного текста брать материалы одной тематики (не путать толстого с вышкой :) ) и опять таки применять маркавку не как средство получения из 1 кила контента 10 кил, а как средство его уникализации (ибо тошнота словосочетаний в рамках сайта будет неестественной). Если упираться только в уникализацию , то можно делать очень мощный словарь из которого рандомом выбирать пару (тройку, пятерку и т.д.)...

    Еще один момент - кто-то говорил про обратимость цепей маркова. Если честно, то я никак не могу оптимизировать нормально скрипт генерации маркова работающий с 5-ками слов... даже не представляю ск-ко нужно ресурсов, чтоб эту цепочку обратить..... если это конечно возможно.

    З.Ы.
    Почитать патент, так все, жопа генерируемым текстам :).
    Одно знаю точно - распространенные доргены, да еще и с открытым кодам лучше пользовать поостеречься.

    З.Ы. З.Ы.
    Прощелкал, что есть уже схожая тема. Модераторы, слейте пожалуста посты в эту
    http://www.nulled.ws/showthread.php?t=54011 тему.
     
  7. Actimelist

    Actimelist Писатель

    Регистр.:
    3 апр 2008
    Сообщения:
    8
    Симпатии:
    0
    морков вчерашний день, помню сколько с ним парился.
    времены меняются :-]
     
  8. sfxer

    sfxer Постоялец

    Регистр.:
    11 фев 2008
    Сообщения:
    140
    Симпатии:
    20
    2VaDoZ
    не палит гугл еще кнопку. *постучал по дереву* Палил бы, доры бы так долго не висели... А как научится, уже будут новые более продвинутые алгоритмы генерации текста, т.к. написать алгритм выявления такого текста гораздо сложнее, чем генератор...
     
  9. gorilla

    gorilla

    Регистр.:
    11 сен 2007
    Сообщения:
    211
    Симпатии:
    27
    У ред батона не выявят у него просто тупая подстановка ключевиков в текст так что такой метод хрен когда выявят закон хеша))
     
  10. VadoZ

    VadoZ Постоялец

    Регистр.:
    23 окт 2007
    Сообщения:
    146
    Симпатии:
    55
    Первые результаты экспериментов:

    Сделал 3 сайтика.
    На 1 просто неуникальный контент, на 2-м "продвинутая марковка" , на 3-м марковка 1к1 как в доргене санчеса.
    Все 3 сайта на одинаковом шаблоне, без редиректов, без впихивания ключей - только те, что образовались естественным образом. Во всех 3-х одинаковое кол-во страниц и примерно одинаковый обьем каждой страницы (20-50 кил, такой разброс ИМХО не критичен, тем более что в среднем по сайту он снивилируется).
    Залил сайтики на народ, проспамил по одной и той-же базе без ключевиков - в качестве анкора УРЛ.

    Первые итоги - стандартную марковку уже удалили. Так и не дожила она до попадания в индекс.

    посмотрим что будет с "продвинутой".

    Конечно 3-х сайтиков очень мало чтоб делать какие-то выводы... на досуге проведу эксперимент с большим кол-вом и добавлю еще 4-й вид - с текстами от красной кнопки.
     
Статус темы:
Закрыта.