№ 148-РВ - Не верьте слишком большим числам статистики поисковиков

Тема в разделе "Платная рассылка Ашманова", создана пользователем Rodik, 2 ноя 2006.

Статус темы:
Закрыта.
  1. Rodik

    Rodik Прохожие

    13 октября в рамках семинара 'Информационные технологии в исследованиях российских филологов' Илья Сегалович читал доклад 'Проблемы в использовании поисковых систем интернета как лингвистического ресурса'. Встреча проходила в Институте мировой литературы им. А.М. Горького РАН.
    Не смотря на то, что доклад предназначался для лингвистов, его было крайне интересно слушать даже тем, кто не понимал некоторые термины. Илья рассказывал увлеченно, с примерами, и также подробно отвечал на вопросы слушателей.
    По словам Ильи Сегаловича, веб-корпус является бесценным источником данных для лингвистов. На его основе можно строить и проверять различные модели, извлекать знания и статистические данные, проводить сравнительные изучения (например, различия языка в регионах).

    Для самих поисковых систем веб-корпус тоже необходим - для измерения качества индекса и для сравнения с другими поисковиками.
    Что можно считать? Можно считать словоупотребления, сайты или страницы. Илья Сегалович поделился такими цифрами: средний размер документа в базе Янедкса 600-700 слов, а среднее самое частотное слово - 20-30.
    Считать сайты - дело не благодарное. Поисковики не заточены для лингвистов. У некоторых поисковиков наблюдается иллюзия того, что в выдаче мы не получим несколько найденных позиций с одного и того же сайта. Примеров, когда на второй и далее страницах результатов поиска встречаются найденные документы с сайта, который мы уже видели на первой странице, множество. К тому же у поисковиков нет согласия, что же считать сайтом. А для лингвистов удобнее применять к сайтам основную характеристику - у сайта есть один владелец.
    Лучше всего считать страницы, в этом случае все более ясно: страница - единица информации в индекс поисковика. Но и здесь есть проблемы. Почти все поисковики часто сознательно не выдают часть результатов: в частности, не показывают похожие друг на друга результаты или не показывают заведомо малорелевантные результаты. Такой эффект 'экономного' поиска называют эшелонированием. С этим эффектом также можно связать необычные перепады в статистике поиска очень частотных слов, которые наблюдались в некоторых поисковых системах.
    По поводу нестабильности результатов выдачи поисковиков Илья Сегалович рекомендовал прочитать работу On the Instability of Web Search Engines (Erik Selberg Oren Etzioni), в которой есть результаты эксперимента по сравнению выдачи 9 поисковых машин утром и вечером: результаты отличались от 19,84% до 30,77%. Всем лингвистам Илья посоветовал не верить слишком большим числам и проводить изучение статистики результатов ночью и не делать больших перерывов (больше двух недель) между несколькими измерениями.
    Кроме того, важно знать язык запросов поисковых машин, который несколько отличается в каждой реализации. А также знать параметры, которые отключают фильтрацию документов по одинаковым сниппетам. Для Google это параметр filter=0, для Яндекса rd=0, для Рамблера noglue=1, для Yahoo dups=1.
    Также Илья Сегалович рассказал про два оператора Яндекса. Оператор языка запросов date позволяет искать в Яндекс.Новостях или в Поиске по блогам с ограничением по дате, например, запрос date='200609*' возвращает в результате все новости сентября 2006 года. Параметр, позволяющий не 'склеивать' результаты в сайты pag=u (это аналог типа группировки flat в XML-поиске на Перейти по ссылке).
    В конце своего доклада Илья Сегалович подвел итог:
    1. Нельзя верить большим числам статистики поисковиков
    2. Проводить исследования статистики в короткий промежуток времени и желательно ночью, когда нагрузка на сервера минимальна
    3. Если сравниваются западные поисковики с Рунетом, то нужно учитывать разницу во времени
    4. У API, которые предлагают некоторые поисковики, наблюдаются проблемы с тем, что выдается старая версия индекса и нет гарантий, что это тоже самое, что сейчас в основной поисковой выдаче
    5. Интерпретация языка запросов и морфологии у разных поисковых систем разная
    6. Поведение поисковиков меняется со временем
    *** Вторая Всероссийская Конференция "Электронная торговля-2006" 19-20 октября, Москва ("Ирис Конгресс-Отель"). Весь процесс эффективных интернет-продаж. Регистрация и условия участия - на сайте Перейти по ссылке.

    СОБЫТИЯ НЕДЕЛИ: РУНЕТ Важные новости, касающиеся SEM и SEO, обозначены звездочкой красного цвета *.
    Яндекс.Директ для тех, у кого нет сайта *

    Если у компании, имеющий офф-лайн бизнес, нет своего сайта, она все равно может создавать контекстные рекламные кампании в Яндекс.Директе - посетители, кликнувшие по объявлению, попадут на автоматически созданную визитную карточку компании. Там отображаются адрес и телефон, указанные рекламодателем. Перейти по ссылке Яндекс привлекает множество небольших и средних компаний в качестве рекламодателей для того, чтобы обеспечить многочисленные сайты-партнеры, привлеченные предыдущим шагом Яндекс. Директа, необходимым количеством тематических объявлений.
    Бегун Автоконтекст 2.0 *

    Компания Бегун Перейти по ссылке, рассказано о главных нововведениях.
    Конкурс 'Интернет-математика 2007'

    Компания Яндекс Перейти по ссылке есть некоторые интересные, например, 'Влияние сеанса и профиля пользователя на ранжирование', 'Обнаружение и анализ сообществ, их тематики, учет знания о сообществах в поиске' и дургие.
    Видео@Mail.Ru

    Компания Mail.ru Перейти по ссылке. Ролики сортируются по темам в каталоге, пользователи могут оставлять комментарии и голосовать за понравившиеся ролики.
    Седьмой Кубок по поиску Яндекса

    Яндекс объявил об открытия седьмого Открытого Кубка России по поиску в Интернете. В этом году игроки, занявшие три призовых места, получат денежный приз. Общий призовой фонд - 1 млн. рублей. Перейти по ссылке
    Quintura - поиск по картинкам

    Компания Quintura Перейти по ссылке еще один вид поиска - поиск по картинкам. В его основе - применяемая в Quintura визуализация поиска. После того, как пользователь вводит запрос, он видит облако слов-ассоциаций введенному запросу. Слова в облаке можно убирать или наоборот, кликая по ним, уточнять запрос. Судя по поверхностному знакомству, поиск по картинкам выглядит достаточно чистым и релевантным.

    СОБЫТИЯ НЕДЕЛИ: ЗА ГРАНИЦЕЙ PayPal выходит на российский и украинский рынок *

    Платежная система PayPal расширяет свои границы. Теперь и россияне с украинцами получили возможность пользоваться онлайновой системе (пока могут только отправлять деньги, но не могут пополнять свой счет и снимать с него деньги). PayPal обслуживает теперь чешскую, датскую, норвежскую и шведскую крону, гонконгский, новозеландский и сингапурский доллар, швейцарский франк, венгерский форинт и польский злотый. Перейти по ссылке
    Во что Google вложил свои $1,65 млрд.? *

    В конце прошлой недели появились слухи о том, что Google планирует приобрести видео-сервис YouTube, что успело вызвать большую шумиху. И достаточно быстро (через пару дней) слухи подтвердились, и Google приобрела сервис для размещения видео-файлов за $1,65 млрд. Всю неделю представители интернет-общественности комментируют и анализируют соглашение, определяя цели, причины и мотивацию обеих сторон: Перейти по ссылке.
    Google открывает сайт-помощник учителя

    Компания Google продолжает выпускать все новые и новые сервисы. На этот раз повод для радости появился у учителей. Компания запустила свой новый сайт Google for Educators, который создан специально для помощи учителям при использовании сервисов Google на уроках. Перейти по ссылке
    Google объединяет Writely и Spreadsheets

    Google объявила об объединении своего текстового редактор Writely и редактора электронных таблиц Spreadsheets в один сервис Google Docs. С помощью объединенной службы можно создавать и управлять документами и таблицами через Интернет. Разработчики планируют внедрить в новый продукт поддержку подавляющего большинства современных форматов, а, кроме того, поддержку одновременной веб-публикации документов на сайтах и блогах. Перейти по ссылке
    Хакеры взломали официальный блог Google

    Большинство пользователей системы AdSense, наверное, удивились, прочитав на официальном блоге компании Google об отмене тестирования нового сервиса click-to-call. Однако, как выяснилось вскоре, неизвестные хакеры взломали блог и опубликовали в нем неправдивое сообщение. Перейти по ссылке
    Новый вирус способствует накрутке кликов

    Недавно был обнаружен новый вирус KMeth, который меняет домашнюю страницу пользователя на другую страницу, наполненную контекстной рекламой. Примечательно то, что реклама самая дорогостоящая - по $4-13 за переход. Цель созданного вируса состоит в том, чтобы пользователь нажал на рекламные ссылки и тем самым принес вирусописателю заработок. Перейти по ссылке
    Если вы знаете новости или события на тему SEO и поисковых систем, присылайте их нам по адресу subscribe@ashmanov.com, они будут опубликованы в рассылке.

    СОВЕТУЕМ ПРОЧЕСТЬ Эксперты о проблеме клик фрода в Рунете *

    В этом году мошенничество, связанное с накруткой кликов, переросло в действительно серьезную проблему. Об этом свидетельствует тот факт, что крупнейшие интернет-компании мира объединились в борьбе против этого явления. Данная проблема достаточно актуальна и в России. В статье 'Проблема клик фрода в России' автор опубликовал мнения на эту тему экспертов российской интернет-индустрии (представителей компаний 'Бегун', 'Ашманов и Партнеры', 'Глобал-ИТ' и других). Перейти по ссылке
    Новый выпуск SEO-дайджеста *

    Вышел в свет очередной, сентябрьский, номер SEO-дайджеста, который, как и прежде, содержит основные наиболее обсуждаемые новости и события прошедшего месяца. На этот раз внимания удостоились такие темы: влияние страны запроса на поисковую выдачу в Google; конкурентоспособность нового поисковика Live.com; реалистичность построения бизнеса на основе бесплатных результатов поиска и о многом другом. Перейти по ссылке
    Интервью с Романом Ивановым

    Роман Иванов, руководитель отдела коммуникационных сервисов Яндекса, рассказывает что такое блог, сколько блогов не досчитались и в чем отличие Поиска по блогам Яндекса от других сервисов. Перейти по ссылке
    Интервью с Антоном Носиком

    Антон Носик дал интервью, которое опубликовано в блоге проекта toodoo.ru. Антон отвечает на вопросы об идеальном инструменте для блоггера, о блогхостинге Яндекса, о том, как блоггеру зарабатывать на блоге. Перейти по ссылке
    Ответы Дмитрия Гришина на вопросы *

    Генеральный директор Mail.Ru Дмитрий Гришин отвечает на вопросы, поступившие от посетителей сайта 'Эксперт': как бороться с почтовым спамом, насколько прибыльны он-лайн игры, что слышно об ассоциации 'большой тройки', какое будущее у интернет-рекламы. Перейти по ссылке
    Опубликованы труды РОМИП 2006

    На сайте Российского семинара по оценке методов информационного поиска опубликованы работы участников. В том числе сотрудников Яндекса, Mail.ru, Кодекса, Стоконы и других. Все файлы в формате PDF. Перейти по ссылке
    История возникновения поведенческого таргетинга

    Реклама на основе поведенческого таргетинга является одним из самых перспективных направлений в Интернете. В связи с появлением такого явления возникает множество вопросов, связанных с появлением таргетинга, его развитием, перспективами, положительными и отрицательными сторонами и т.д. Именно на эти и многие другие вопросы даются ответы в статье 'Умные баннеры'. Перейти по ссылке
    Что делают программисты Google на работе?

    Наверное, практически каждая вторая заметка, новость или статья на темы поисковой оптимизации, онлайн-рекламы, поисковых систем и т.п. в той или иной степени затрагивают крупнейшую интернет-компанию Google. Поэтому интернетчики знают о высоком профессиональном уровне компании, о ее сервисах и других разработках. Однако мало кто знает, в чем состоят обязанности разработчиков компании, каков их распорядок дня. В этой связи один из сотрудников Google разместил заметку на официальном блоге компании, где проиллюстрировал свой рабочий день. Перейти по ссылке
    Совещания - важная составляющая жизни Google

    В продолжение темы 'как проводят свой рабочий день сотрудники-разработчики Google' Марисса Майер, вице-президент компании рассказывает о важности проведения эффективных совещаний. Майер выделяет и раскрывает содержание шести основных правил, которых необходимо придерживаться для проведения успешного собрания: 'четкий план', 'запись тезисов', 'микро совещания', 'индивидуальный прием', 'никакой политики, только данные', 'гигантский таймер'. Перейти по ссылке
    Обзор сделал Игорь Гуров
     
Статус темы:
Закрыта.