№ 165-РВ - TrustRank и PhraseRank

Тема в разделе "Платная рассылка Ашманова", создана пользователем Rodik, 11 фев 2007.

Статус темы:
Закрыта.
  1. Rodik

    Rodik Прохожие

    [FONT=tahoma,arial]
    TrustRank и PhraseRank
    два вектора хорошего ранжирования​
    [/FONT]
    От редактора TrustRank и PhraseRank - два вектора обеспечения хорошего ранжирования - Н. Харин, А. Иванов TrustRank - стратегия получения ссылок - В.Беломестных Метод PhraseRank, или обнаружение спам-документов... Патент Google Секреты обмена ссылками - М.Кислицын Веселая ретроспектива - 10 способов увеличения конверсии Задайте свой вопрос экспертам Перейти по ссылке понравился Яндексу. Из компании пришло письмо с одобрением идеи. Но были также высказаны справедливые замечания. В частности: а) нерепрезентативность выборки, т.е. попросту мало маркеров, б) неверное определение некоторых маркеров. Например, в первой версии анализатора для запроса "поисковые системы" в качестве маркера был выбран сайт Рамблера. И раз уж качество считается по средней позиции маркера, почему вдруг Яндекс и Гугл должны ставить Рамблер на первое место по такому запросу. Такие ошибки были, конечно, исправлены.
    Список пар "запрос-маркер" мы постарались увеличить и исправить. Вот Перейти по ссылке (88 пар).
    А вот Перейти по ссылке. Как видим, из 88 маркеров Google не нашел только 1, Яндекс - 8, Рамблер - 10. Т.е. здесь Гугл - лидер с большим отрывом. Средняя позиция сайта-маркера из найденных: у Яндекса - 1,29, т.е. наиболее высокая; у Гугла - 1,36; у Рамблера - 1,77. Это показывает, что список маркеров подобран все ж довольно неплохо.
    И уж совсем интересно смотреть, какие системы не смогли обнаружить сайты-маркеты, см. Перейти по ссылке по запросу "тойота". А для Гугла почему-то не оказался авторитетом известный сексолог Игорь Семенович Кон, разместивший свой энциклопедический сайт по сексологии на "Народе".
    Выводы, какая система лучше ищет, делать вам. Мы же на следующей неделе собираемся открыть еще один очень интересный анализатор поисковой выдачи, в котором будет проиллюстрировано давление оптимизаторов на поисковые системы.

    Дальше немного рекламы. Но... тематической. Книга "Продвижение сайта в поисковых системах" Ашманова-Иванова занимает первое место в списке бестселлеров "Озона" в Перейти по ссылке - на шестом месте. Не ожидал, что интерес к теме может быть настолько большим. Большое спасибо всем читателям!
    * * *
    КУДА ПОЙТИ УЧИТЬСЯ
    8-9 февраля пройдет семинар традиционный ежемесячный семинар компании "Ашманов и Партнеры" по продвижению сайтов в Интернете.
    Перейти по ссылке

    * * * 27 февраля агентство интернет-маркетинга "Артон" проведет очередной практический семинар "Эффективная реклама в Интернете". Семинар предназначен для специалистов, занимающихся продвижением товаров и услуг в Интернете, в том числе для руководителей проектов, менеджеров по рекламе и PR.
    "2007 год, - по словам Дмитрия Малявкина, - это продолжение рекламной гонки. Интернет-реклама продолжит увеличивать свою долю в рекламных бюджетах. Контекстная реклама рвется занять достойное место рядом с традиционной медийной рекламой. Наши наблюдения показывают, что в результате этой гонки рекламисты не успевают "раскладывать по полочкам" полученные знания, в результате хромает эффективность распределения рекламных бюджетов. Семинар направлен на систематизацию уже имеющихся данных и предоставление новых материалов для проведения эффективных рекламных кампаний".
    Посмотреть программу и зарегистрироваться на семинар можно на сайте - Перейти по ссылке

    * * * Еще одно небольшое объявление. Программа "бартерной" подписки на РВ в обмен на ссылку закрыта, за исключением тех партнеров, у кого размещены ссылки на сайт Перейти по ссылке. Остальным подписчикам мы, без обязательств поддержки ссылки, оставляем еще месяц РВ-подписки, с возможностью продлить ее на следующий год с обычной для старых подписчиков скидкой 20%. Благодарим всех, кто принял участие в этой программе, было очень приятно работать вместе.

    ДВА ВЕКТОРА ОБЕСПЕЧЕНИЯ ХОРОШЕГО РАНЖИРОВАНИЯ ДВА ВЕКТОРА ОБЕСПЕЧЕНИЯ ХОРОШЕГО РАНЖИРОВАНИЯ - ТЕКСТЫ И ССЫЛКИ

    Резко возросшее в 2006 году количество поискового спама заставляет разработчиков поисковых машин искать более изощренные решения для автоматического определения качественных страниц и их ранжирования.
    Google столкнулся с этой проблемой чуть раньше, поэтому успел разработать два алгоритма, обход которых с целью спама - или учет с целью оптимизации - (нужное подчеркнуть) представляется уже далеко не простой задачей.
    Это идеи TrustRank и PhraseRank. В какой стадии внедрения находится каждый из алгоритмов, сказать сложно, Гугл, как и остальные поисковые системы, не стремится полностью выложить все свои секреты веб-мастерам. Но картина нашего "алгоритмического будущего" рисуется уже более отчетливо. Очевидно, что работы в этом направлении будут идти, если уже не идут полным ходом, и в Яндексе.
    Ниже, в другой статье, мы публикуем перевод патента Google, где рассказано о новом методе индексирования, где индексироваться будут не только слова, но и словосочетания. При этом учитываться будут не все содержащиеся в документе (веб-странице) термины, а только значимые.
    Вопрос на заметку. Как определить, какие слова и словосочетания веб-страницы поисковая система сочтет значимыми?..
    Для выделения терминов используется ассоциативная информация об их совместной встречаемости. Значимыми считаются только те термины, у которых имеются достаточно сильные ассоциативные связи с другими терминами. По этой причине в процессе отбора значимых терминов строятся ассоциативные отношения между ними, т.е. фактически формируется ассоциативный словарь из слов и словосочетаний.
    Вопрос на заметку. На основании какого корпуса текстов поисковая система будет формировать ассоциативный словарь из слов и словосочетаний?..
    С помощью ассоциативного словаря может быть обнаружен и спам - вернее, та его разновидность, при которой страница составляется из многих терминов (например, названий товаров), относящихся к определенной тематике. Все эти термины совместно встречаются в разных сочетаниях, но не все сразу. Обнаружение спама выполняется следующим образом. Из страницы выделяются термины (слова и словосочетания). Если достаточно много этих терминов связано ассоциативными отношениями со многими другими терминами страницы, то страница считается спамом. Для нормальной страницы число ассоциативных отношений между ее терминами намного меньше, чем для спамной страницы. На данном предположении и основывается обнаружение спама.
    Вопрос на заметку. Проще говоря, будут автоматически отфильтрованы "речитативные" страницы, с текстами, похожими на заклинания, типа "если вы хотите поменять свою кухонную мебель и мебель в гостиной, то наша кухонная мебель - идеальное решение, а гостиная мебель - совершенно идеальное; кухня - понятие неотделимое от кухонной мебели, а красивая гостиная мебель украсит вашу гостиную комнату точно так же, как наша кухонная мебель украсит вашу кухню... От чтения таких "творений SEO-копирайтеров" в больших количествах в голове остается сплошное "го... го... го... хня... хню... хней..."
    Еще один вид спама обнаруживается неявно - подозрительные страницы получают пониженный вес при ранжировании. Достигается это следующим образом. При вычислении веса найденной страницы используется метод под названием PhraseRank. В рамках этого метода высокий вес может получить только та страница, в которой содержится достаточно много терминов, связанных ассоциативными отношениями с терминами запроса. Если это условие не выполняется, то не поможет ни большое число появлений запроса в странице, ни ее высокий PageRank - вес страницы будет мал, и она не попадет в начальную часть списка найденных страниц.
    Вопрос на заметку. Ассоциативные отношения с терминами запроса - это не ассоциированные запросы в привычном нам понимании, т.е. запросы, введенные пользователями в течение одной поисковой сессии. Это слова и фразы, самой поисковой системой признанные значимыми терминами в текстах, где имеется значимое слово (фраза) запроса. Т.е. даже для банальной легкой "накачки" текста ключевыми словами теперь необходимо иметь информацию об ассоциированных словах в индексе поисковой машины. Интересно, где же брать списки таких ассоциаций?..
    Таким образом, "текстовая коррекция", которая ранее сводилась к легкой правке титульных фраз и небольшой накачке текста нужными словами, становится весьма высокотехнологичным занятием, для грамотного проведения которого необходимы серьезные исследования.
    Второй вектор хорошего ранжирования - ссылки. Здесь в качестве альтернативы привычному PageRank предлагается другой метод вычисления значимости страниц Интернет. Этот метод, именуемый TrustRank, имеет то преимущество, что спамные страницы, в среднем, получают меньшую оценку значимости TrustRank по сравнению с нормальными страницами.
    Хорошие сайты, которым пользователи доверяют (отсюда и название TrustRank), редко ссылаются на спамные сайты. Поэтому отбирается некоторое множество хороших сайтов, страницам которых присваивается начальный ненулевой вес. Для всех остальных сайтов начальный вес их страниц равен 0.
    Согласно формуле расчета, преимущество, в первую очередь, получают страницы с хороших сайтов (у них начальный ненулевой вес), а также те страницы, на которые они ссылаются.
    Вопрос на заметку. Фактически, официально объявлено, что "все сайты равны, но есть те, которые равнее других". Какой набор сайтов используется в качестве базового для расчетов траст-ранка. Является ли он постоянным или в него могут быть добавлены (удалены) новые сайты? Насколько реально "простому" сайту получить ссылку с "доверенного" сайта?
    Описано также усовершенствование TrustRank. Смысл его в том, что множество хороших сайтов разбивается на тематические подмножества, по каждому из которых вычисляется свой вариант TrustRank. Суммарное значение TrustRank является комбинацией его отдельных тематических значений.
    Множество хороших сайтов предлагается отбирать из известных, вручную составляемых каталогов типа Open Directory Project. В этом случае разбиение на тематические подмножества не требует никаких дополнительных усилий.
    Вопрос на заметку. Какой "известный, вручную составляемый каталог" может быть использован для отбора хороших сайтов, например, Яндексом? А, например, Рамблером?..
    Подведем итоги. Общая формула продвижения по запросу в некоем обозримом будущем выглядит примерно так.
    • На странице, которую нужно вывести в топ по запросу, должны быть не только слова запроса, но и ассоциативные слова и фразы, причем в соотношениях, которые поисковая система считает естественными. Небольшой перебор - и страница упадет вниз.
    • На страницу должно вести несколько ссылок с сайтов, которые при расчете траст-ранка получили высокие значения доверительности. Идеально - от "родоначальников".
    • Ключевое слово или фраза запроса, желательно, должны присутствовать в тексте ссылки - ссылочное ранжирование никто не отменял.
    • Ключевое слово или фраза запроса, желательно, должны присутствовать в титульной фразе страницы. Внешний вид страницы результатов поиска должен быть максимально релевантным запросу.
    Проблема, как видим, заключается в поиске ассоциированных слов и фраз для большинства коммерчески значимых запросов и их естественных соотношений. А также поиска списка сайтов, которым траст-ранк если не присваивается по умолчанию, то, по крайней мере, хорошо передается.

    TrustRank - СТРАТЕГИЯ ПОЛУЧЕНИЯ ССЫЛОК TrustRank - стратегия получения ссылок

    Введение. Статья предназначена для линк-менеджеров, SEO-специалистов и вебмастеров, занимающихся накоплением ссылок на собственные сайты или сайты клиентов. В отличие от известной в Рунете теоретической работы Золтана Гьенги (Zoltan Gyongyi), Гектора Гарсиа-Молина (Hector Garcia-Molina), Яна Педерсена (Jan Pedersen) "Борьба со спамом при помощи алгоритма Trustrank" ("Combating Web Spam with TrustRank") здесь освещаются практические следствия применения алгоритма TrustRank.
    К лету 2005 года на поиск в Google оптимизаторы стали оказывать значительное влияние. Один из основных критериев ранжирования тогда был PageRank, который накручивался обменом ссылками и покупкой ссылок на других сайтах. К концу года Google подготовил и начал проводить апдейт своих алгоритмов ранжирования, в том числе появился и алгоритм TrustRank.
    Основная идея сводится к следующему - уменьшить влияние PageRank на результаты поиска и начать учитывать качество ссылок. Под качеством ссылки подразумевается качество ссылающегося документа.
    Аарон Уолл (Aaron Wall) выделяет следующие общие идеи, на которых основан алгоритм TrustRank:
    • Хорошие документы редко ссылаются на плохие. Плохие документы часто ссылаются на хорошие, пытаясь улучшить свои позиции.
    • Забота, с которой люди добавляют ссылки на свой документ, часто обратно пропорциональна числу ссылок в документе.
    • Доверие уменьшается от сайта к сайту.
    Влияние PageRank на ранжирование было уменьшено, и он стал не более чем "пузомеркой". Причем искусственной. Аарон Уолл пишет буквально следующее: "Если Вы имеете несколько тысяч долларов и несколько месяцев времени, не трудно изготовить искусственный PageRank 7".
    Таким образом, на ранжирование в Google стало оказывать большое влияние качество ссылок. Энди Хаганс (Andy Hagans) указал две крайности, между которыми находится весь спектр качества ссылок:
    • ссылки из "источников, которым доверяют", типа DMOZ (сайты на доменах gov, edu и т.д.);
    • ссылки с низкокачественных сайтов, которые могут быть объединены сети.
    Понятно, что ссылки первого типа увеличивают TrustRank сайта и благотворно влияют на его ранжирование в поиске, а вторые не только не помогают, но и могут мешать продвижению сайта в поиске.
    Для оценки отрицательного влияния ссылок с низким качеством Аарон Уолл предложил понятие AntiTrustRank. По А. Уоллу AntiTrustRank показывает насколько много ссылок имеет сайт от сайтов, которые Google может заподозрить в поисковом спаме. Для сайта компании AntiTrustRank передается следующим образом:
    • входящие ссылки на каталог сайтов - обычно ссылки с сайтов, имеющих низкое доверие (trust);
    • каталог сайтов ссылается на большое количество сайтов, имеющих ограниченное доверие (trust) (непропорционально большой процент), и Ваш сайт будет среди множества сайтов, на которые ссылается каталог;
    • слишком большое количество подобных связей могут передать AntiTrustRank (отрицательный TrustRank) сайту вашей компании.
    Следующая иллюстрация показывает, описанную выше ситуацию. Красные кресты означают, что этих ссылок нет. (Ссылка абсолютная, схема будет видна, если, находясь онлайн, открыть письмо в браузере)
    <img alt="" border="0" height="530" width="530">
    Теперь перейдем к практике.
    Энди Хаганс сформулировал общие принципы получения ссылок. Во-первых, ссылки с каталогов, указанные в "Перейти по ссылке" - DMOZ и Yahoo Directory! Во-вторых, каталоги с заведомо высоким уровнем доверия (trust) - JoeAnt, Gimpsy, GoGuides, Uncover the Net. Главный принцип внесения сайта в каталог - смотрите насколько хорошо он модерируется. Каталог старается, чтобы в нем были ссылки только на качественные документы или он собирает все подряд в одну кучу, стараясь заработать денег на включении сайта, откручивая рекламу какой-либо PPC, или накручивает себе PR на обмене ссылками?
    Внимательный читатель здесь должен обратить внимание на то, что, используя эффект AntiTrustRank, можно вести борьбу с конкурентами. Да, это возможно. У оптимизаторов даже появился термин "тяжелая ссылка", появление которой может привести к понижению позиций сайта в поисковой выдаче. Энди Хаганс, предлагая способ накопления ссылок для новых сайтов, похоже, решил и эту проблему.
    Основная проблема всех новых сайтов в Google - "песочница", и с введением алгоритма TrustRank эта проблема только усугубилась. Э. Хаганс советует вначале собрать определенного рода ссылки на сайт с сайтов, которые уже получили некоторое доверие (trust). Во-первых, это каталоги (Перейти по ссылке), которым Google точно доверяет, во-вторых, ссылки с сайтов входящих в ТОП200 по высококонкурентным запросам. Если сайт находится в ТОП200 по высоконкурентному запросу, значит, у него есть некоторая доля доверия со стороны Google. Далее возможны варианты развития ссылочной базы сайта - синдицирование статей, социальные сети, качественные обмены ссылками. Даже если некоторые ссылающиеся сайты потеряют доверие (trust), то есть займутся поисковым спамом, на Ваш сайт это уже не окажет влияния, так как у него уже будет выращен "спинной хребет" ссылок.
    Виктор Беломестных,
    Перейти по ссылке
    P.S. Если вы думаете, что в Рунете это не работает, то вы глубоко заблуждаетесь. Все описанные в статье технологии применяются в моей работе.
    * * * Использованная литература и источники для дополнительного чтения
    1. Перейти по ссылке.
    2. Перейти по ссылке. Авторы : Baoning Wu, Vinay Goel, Brian D. Davison.
    3. 101 Ways to Build Link Popularity in 2006. Авторы : Andy Hagans, Aaron Wall. Перевод на русский: Перейти по ссылке.
    4. Перейти по ссылке. Автор : Aaron Wall.
    5. Перейти по ссылке. Автор : Andy Hagans.
    6. Перейти по ссылке. Автор : Aaron Wall.
    7. Перейти по ссылке. Автор : Andy Hagans.
    8. Перейти по ссылке. Автор : Michael Gray.
    9. Перейти по ссылке. Автор : Aaron Wall.
    10. Перейти по ссылке. Автор : Aaron Wall.
    PhraseRank Обнаружение спам документов в информационной поисковой системе основанной на словосочетаниях (фразах)

    РЕЗЮМЕ

    Информационная поисковая система использует словосочетания для индексации, извлечения, организации и описания документов. Словосочетания идентифицируются таким образом, что позволяют предсказывать появление других словосочетаний в документах. Документы индексируются в соответствии с теми фразами, которые они в себе содержат. Спам документ идентифицируется, основываясь на количестве связанных фраз в документе.
    ПУНКТЫ ПАТЕНТНОЙ ФОРМУЛЫ
    1. Метод обнаружения спам документов в информационной поисковой системе с использованием компьютера, метод включает в себя: поддерживание списка фраз, каждая фраза ассоциируется со списком родственных фраз; определение ожидаемого количества родственных фраз присутствующих в документе для любой фразы из списка фраз; определение для документа и хотя бы для одной фразы в документе действительное количество родственных фраз присутствующих в документе; определение документа как спам документа путем сравнения действительного количества родственных фраз присутствующих в документе с ожидаемым количеством родственных фраз.
    2. Метод, описанный в пункте 1, где определение ожидаемого количества родственных фраз присутствующих в документе для любой фразы из списка фраз далее состоит из: прохождения по дереву поиска индекса документов; определение набора фраз в документе из списка фраз, для каждой фразы в документе, для каждого документа, а также определения количества родственных фраз в документе; определение ожидаемого количества родственных фраз, как среднего числа определенного количества родственных фраз во всех пройденных документах.
    3. Метод, описанный в пункте 1, где определение документа как спам документа, далее состоит из: определения документа, как спам документа, если действительное количество родственных фраз в документе значительно превышает ожидаемое количество родственных фраз для хотя бы одной фразы.
    4. Метод, описанный в пункте 1, где определение документа как спам документа, далее состоит из: определения документа, как спам документа, если действительное количество родственных фраз присутствующих в документе, хотя бы для одной фразы, превышает ожидаемое количество родственных фраз или, по крайней мере, число кратное стандартному отклонению от ожидаемого количества родственных фраз.
    5. Метод, описанный в пункте 1, где определение документа как спам документа, далее состоит из: определения документа, как спам документа, если действительное число родственных фраз в документе хотя бы для одной фразы превышает ожидаемое число родственных фраз или, по крайней мере, число кратное ожидаемому числу родственных фраз.
    6. Метод, описанный в пункте 1, где определение документа как спам документа, далее состоит из: определения документа, как спам документа где, для каждой минимальной множественности фраз в документе, действительное число родственных фраз в документе значительно превышает ожидаемое число родственных фраз.
    7. Метод, описанный в пункте 1, где определение документа как спам документа, далее состоит из: определения документа, как спам документа где, действительное число родственных фраз представленных в документе, по крайней мере, для одной фразы превышает предопределенный максимум ожидаемого числа родственных фраз.
    8. Метод, описанный в пункте 1, где определение документа как спам документа, далее состоит из: определения для документа набора наиболее значимых фраз представленных в документе; определение действительного числа родственных фраз представленных в документе для каждой из наиболее значимых родственных фраз; определение документа как спам документа по отношению к значимой фразе, если действительное число родственных фраз значительно превышает ожидаемое число родственных фраз.
    9. Метод, описанный в пункте 1, далее состоит из: добавления документа в список спам документов, в зависимости от того был ли он определен как спам документ.
    10. Метод, описанный в пункте 9, далее состоит из: получения поискового запроса, предоставление набора документов релевантных поисковому запросу, каждый документ обладает определенным значением по релевантности; определение, был ли документ идентифицирован как спам документ, для каждого документа в наборе документов; понижение значения релевантности документа, если документ был идентифицирован как спам документ; организация набора документов в зависимости от их значений релевантности.
    11. Метод, описанный в пункте 8, далее состоит из: добавления документа к списку спам документов ассоциированных с наиболее значимой фразой; добавление документа к списку спам документов ассоциированных с родственной фразой, для каждой из родственных фраз наиболее значимой фразы.
    ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯ

    [0003] Системы информационного поиска, которые также называют поисковыми машинами, на сегодняшний день являются неотъемлемой частью при поиске информации в таком многообразном, постоянно растущем информационном пространстве, как Интернет. В общем, работу поисковой машины можно описать следующим образом: поисковая машина создает индекс, который соотносит документы (или "страницы") с отдельными словами, встречающимися в каждом документе. Документ предоставляется пользователю в ответ на запрос, содержащий определенное число поисковых запросов, как правило, приблизительно такое же число поисковых запросов содержится и в документе, который предоставляется. Предоставленные документы впоследствии ранжируются в соответствии с другими статистическими данными, такими как, частота поискового запроса в документе, доменное имя, анализ ссылок и т. д. Предоставленные документы затем отображаются пользователю, обычно, в том порядке, в котором они были ранжированы, и без какой либо последующей группировки или иерархии. В некоторых случаях, часть текста из документа предоставляется вместе со ссылкой на документ, для того чтобы дать представление о документе.
    [0004] Прямое "булево" совпадение поисковых запросов имеет хорошо известные ограничения, и не обнаруживает документы, которые не имеют в себе поисковых запросов, но имеют родственные слова. Например, в типичной "булевой" системе, поиск "Australian Shepherds" не выдаст документы о других пастушьих собаках, таких как Border Collies, название которых не является прямым совпадением с поисковым запросом. Кроме того, такая система, выдаст большое количество документов со словами Australia и "shepherds" и поднимет их высоко при ранжировании (но они не будут иметь никакого отношения к пастушьим собакам).
    [0005] Проблема в том, что традиционные системы индексируют документы, основываясь на отдельных словах, а не на концептах. Концепты часто выражаются во фразах, таких как, "Australian Shepherd," "President of the United States," и "Sundance Film Festival". В лучшем случае, прежние системы будут индексировать документы относительно заранее предопределенного и очень ограниченного набора "известных" фраз, которые обычно отбираются оператором-человеком. Индексации фраз, как правило, не происходит, из-за нехватки вычислительных мощностей и памяти для идентификации всех возможных фраз из скажем трех, четырех или пяти и больше слов. Например, если допустить, что любые пять слов могут сформировать фразу, а в большом корпусе содержится приблизительно 200,000 слов, то получится примерно 3.2Х10 в 26 возможных фраз, очевидно гораздо больше, чем любая система может хранить и обрабатывать. Еще одной проблемой является то, что в лексиконе постоянно появляются новые фразы и исчезают старые, и это происходит гораздо чаще, чем появляются новые слова. Такие области как технологии, искусство, мировые события, право - являются активными генераторами новых фраз. Употребление других фраз постепенно уменьшается.
    [0006] Еще одной проблемой, с которой сталкиваются существующие системы поиска информации - это появление спам документов. Некоторые из спам документов являются документами, которые не несут никакого смысла, а всего лишь являются коллекцией популярных слов и фраз, зачастую они встречаются в количествах сотен и тысяч; такие страницы называются "страницами забитыми ключевыми словами". Другие спам страницы включают слова и фразы, на которые ориентируются рекламодатели. Такие типы документов, создаются с целью попадания в выдачу поисковиков для отображения рекламы. Однако, для пользователя, который ищет определенную информацию, такие документы не представляют ценности и являются только тратой времени.
    [0007] Соответственно, существует необходимость в системе поиска информации и методологии, которая бы позволяла полноценно идентифицировать фразы в корпусах больших размеров и индексировать документы полагаясь на фразы. В дополнение, существует необходимость в системе поиска информации для идентификации спам документов и отфильтровывания таких документов из результатов выдачи.
    РЕЗЮМЕ ИЗОБРЕТЕНИЯ

    [0008] Система поиска информации и методология использует фразы для индексации, поиска, ранжирования и описания документов в коллекции документов. Система настроена таким образом, что идентифицирует фразы, которые наиболее часто встречаются в коллекции документов и маркирует их как "полноценные" или "хорошие" фразы. Таким образом, возможно, идентифицировать фразы, состоящие из четырех, пяти или более слов. Это решает проблему необходимости в идентификации всех возможных фраз, которые мы получаем в результате перестановок всех имеющихся слов.
    [0009] Система далее настроена таким образом, что идентифицирует фразы, которые родственны друг другу, основываясь на возможности предсказания присутствия других фраз в документе. Если быть более точными, то показатель прогноза это отношение между действительным показателем встречаемости двух фраз и ожидаемым показателем встречаемости двух фраз. Прирост информации, отношение между действительным процентом встречаемости и ожидаемым - это один из способов вычисления этого показателя прогноза. Две фразы являются родственными, когда показатель прогноза превышает порог. В этом случае, вторая фраза имеет значительный информационный прирост относительно первой фразы. Семантически, родственными фразами будут те, которые обычно используются для описания той или иной темы, как например, "President of the United States" и "White House." Для определенной фразы, родственные фразы могут быть расположены в определенном порядке, в соответствии со степенью их релевантности или значимости, основываясь соответственно на их показателях прогноза.
    [0010] Система поиска информации настроена таким образом, чтобы идентифицировать спам документ, основываясь на чрезмерном количестве родственных фраз наличествующих в документе.
    [0011] Настоящее изобретение имеет последующие варианты осуществления изобретения в областях: архитектуры программного обеспечения, компьютерных программ, методов используемых компьютерными программами, компьютерно сгенерированными интерфейсами и презентациями.
    [0012] Последующий материал, является описанием всего лишь нескольких основных черт из системы поиска информации и методологии, которые основываются на фразах. Те, кто обладают знаниями в области систем информационного поиска, оценят гибкость и широкие возможности системы работающей основываясь на фразах для индексации, аннотации, поиска и ранжирования при анализе и обработке документов...
    * * * Подписчики РВ (расширенного варианта нашей рассылки) могут скачать полный перевод этого патента Google по ссылке -
    Перейти по ссылке
    Русский перевод под ред. И.Гурова
    Перейти по ссылке

    СЕКРЕТЫ ОБМЕНА ССЫЛКАМИ Секреты обмена ссылками

    "Меняться или не меняться?" - сегодня такой вопрос не стоит. Так или иначе, обмен - один из способов интернет-маркетинга. И было бы не разумно не использовать потенциал данного способа продвижения. Но как его использовать наиболее эффективно?
    Математика или маркетинг?!

    Задам вопрос по другому - вам нужны цифры или результат?
    И как вообще добиться гарантированного результата, если мы, оптимизаторы, по сути стремимся искусственно влиять на выдачу поисковых систем? Неизвестно какой алгоритм поисковики внедрят завтра, чтобы уменьшить наше искусственное влияние.
    Цифры и алгоритмы могут меняться, но результат останется, если вы будете придерживаться принципов маркетинга и учитывать самый главный фактор - людей. Поэтому лучше меняться меньше, но качественно (например - используя статьи или непрямые ссылки).
    Эффективный обмен в контексте маркетинга

    <img alt="Каталог LinkClub-Бегемот" align="left" border="0" height="265" hspace="10" vspace="10" width="180"> Имея в распоряжении профессиональные инструменты для продвижения сайта вы можете обеспечить долгосрочный результат. И, активно проводя обмены ссылками, создавать страницы полезные не только поисковым системам, но и пользователям. Одним из таких инструментов является каталог Бегемот.
    Его развитие не стоит на месте. Сегодня с помощью каталога вы можете безопасно и эффективно меняться не только ссылками, но и статьями. Таким образом, это больше чем инструмент оптимизатора - это инструмент интернет-маркетолога.
    Благодаря наличию модулей (большинство из них описаны на странице Перейти по ссылке ) вы можете подобрать конфигурацию каталога под свои потребности.
    Обмен статьями

    Чтобы рассказать качественно о вашем сайте, одной ссылки или просто упоминания в каталоге - не достаточно. Все популярнее становится размещение больших текстов, статей. Подробно рассказывающих либо о деятельности фирмы в целом, либо о каком-либо вопросе, проблеме и о том, как продукция (услуги) фирмы могут быть полезны при решении этого вопроса.
    Каталог Бегемот может быть верным помощником в деле размещения статей, вписывая их естественно и логично в вашу коллекцию ссылок. Размещать статьи можно с помощью двух модулей, двумя способами.
    • Модуль генерации отдельной страницы для каждой ссылки. Используя его, на странице каталога вы помещаете только краткую информацию о ссылках партнера (например - только заголовок), а полное описание открывается на отдельной странице.
    • Модуль статей. Этот модуль включает в себя простейший публикатор. Он позволяет публиковать статьи по темам, совпадающим с рубриками каталога. На страницах каталога помещаются анонсы тематических статей. Таким образом, кроме публикации статей, этот модуль позволяет наполнять страницы каталога тематическим контентом.
    Генерация статей

    Уникальный контент в цене.
    Но если Вы проводите обмен ссылками. то знаете, как трудно описать по-новому то, что уже описано на сто раз. Как порой трудно найти новые слова для описания "трубопроводной арматуры" или "промышленных аккумуляторов".
    Поэтому и при написании статей и при создании ссылок на сайт будет полезен модуль генерации текстов (ссылок) "человекообразного" вида. Этот модуль вполне можно применять и для генерации статей (он не содержит никакого
    ограничения на размер генерируемых текстов). Расскажем поподробнее, как работает этот модуль.
    1. Задаются "фразы". Это фрагменты текста произвольной длины. Фразы характеризуются порядком отображения. Чем выше это значение, тем выше будет расположен в будущей статье (ссылке) фрагмент. Если значение отрицательно - то фрагмент вообще исключается из формирования текста, просто хранится в админке "про запас".
    2. Задаются "переменные". Переменные - это наборы взаимозаменяемых словосочетаний. "Фразы" могут включать неограниченное количество "переменных".
    3. Вот и все. Можно генерировать разнообразные тексты.
    Непрямой обмен

    Известно, что непрямой обмен ссылками приносит больше пользы продвигаемому сайту, чем "ты мне, я тебе". Бегемот на 100% поддерживает непрямой обмен. Мы об этом писали ранее, см. Перейти по ссылке
    Выводы

    В ваших руках инструмент, который позволит организовать обмен не ущемляя интересы поисковиков, которые стремятся сделать поиск для людей и, конечно, не ущемляя свои собственные интересы - "доверяй, но проверяй".
    Михаил Кислицын
    Перейти по ссылке

    ВЕСЕЛАЯ РЕТРОСПЕКТИВА Новая иллюстрация студии Перейти по ссылке
    * * * "Конверсия - это количество потенциальных покупателей, которые все-таки становятся покупателями. Применительно к сайту - это обычно тот процент посетителей, которые совершают покупку. Многие сайты концентрируются исключительно на увеличении посетителей, в то время, когда на сайте у них имеются очевидные проблемы, устранение которых привело бы к резкому росту конверсии при минимальных расходах.

    Улучшение конверсии сайта в некоторых случаях может быть достаточно простым. Вот например 10 несложных способов...

    Что происходит, если пользователь решает купить продукт? Он добавляет его в свою покупательскую корзину. Как он это делает?.."


    КАК ЗАДАТЬ ВОПРОС ЭКСПЕРТАМ?
    Cтатьи, исследования, экспертные ответы и оценки рассылки "Продвижение сайта с опытом экспертов" будут посвящены, прежде всего, тому, что больше интересует вас, наших подписчиков.
    Присылайте свои вопросы и пожелания по адресу subscribe@ashmanov.com. Ждем!
    Успехов Вам!
    Выпуск подготовил Андрей Иванов
    "Ашманов и Партнеры"
     
  2. Adef

    Adef Создатель

    Регистр.:
    3 окт 2006
    Сообщения:
    31
    Симпатии:
    24
    Rodik как всегда респект тебе.

    Вопрос такой:

    "Подготовлен электронный сборник докладов пятой юбилейной конференции по продвижению сайтов, которая состоялась в ноябре 2006 года в Москве. Для РВ-подписчиков сборник, как и все сборники предыдущих конференций, бесплатный. Заявки можно присылать по адресу subscribe@ashmanov.com с темой письма Sbornik_V"

    Ты можешь сбросить сборник?
     
  3. HeavyHell

    HeavyHell

    Заблокирован
    Регистр.:
    15 апр 2006
    Сообщения:
    278
    Симпатии:
    71
    присоеденяюсь к респектам и поддерживаю вопрос
     
  4. Rodik

    Rodik Прохожие

    выложил Перейти по ссылке
     
Статус темы:
Закрыта.