yacy - децентрализованный поисковик

Тема в разделе "Зарубежные поисковики", создана пользователем thoth777, 26 ноя 2011.

  1. thoth777

    thoth777

    Регистр.:
    28 ноя 2008
    Сообщения:
    304
    Симпатии:
    98
    Оказывается, давно существует и успешно развивается децентрализованный поисковичок yacy.net
    по статистике на их сайте, проиндексировано порядка 1.4 миллиардов документов, и число их растет.

    Каждый пользователь, устанавливая себе поисковичок, участвует в индексировании и обмене информацией. Инфа распределяется по принципу децентрализованной сети.

    Есть возможность указать для индексации список определенных ресурсов.

    Сама софтинка писана на яве и работает под управлением разных осей - винды, никсов. Из интересностей - есть API, через него можно отправлять запросы и парсить ответы.

    Кто-нить юзал сие чудо?
     
  2. IamDevil

    IamDevil Капитан

    Регистр.:
    15 ноя 2009
    Сообщения:
    243
    Симпатии:
    56
    А в гугле есть оператор "site", который позволяет искать информацию на каком-то определенном ресурсе. А также Перейти по ссылке для продвинутых пользователей. Использовать данную разработку нет нужды, не вижу ее преимуществ.
     
  3. Красавчег

    Красавчег Завсегдатай

    Регистр.:
    15 мар 2010
    Сообщения:
    902
    Симпатии:
    300
    Если честно, то я так и не понял что такое "децентрализованный поисковичок" и как его реально можно использовать.
     
  4. thoth777

    thoth777

    Регистр.:
    28 ноя 2008
    Сообщения:
    304
    Симпатии:
    98
    децентрализованный - означает что информация, собранная пауками, хранится не на каком-то определенном сервере, а на множестве пользовательских серверов.
    и сами пауки запускаются пользователями.
    то есть: человек устанавливает на свой комп софтину, а далее она: гуляет по указанным пользователем сайтам и индексирует их, собирая в локальную базу.
    серверы общаются друг с другом так же, как это происходит в сети Kademlia (Перейти по ссылке)

    соответственно, запрос от одного из компов обрабатывается другими участниками, и на основе этого формируется выдача.

    кто искал что-то в emule через kad, поймет как это работает.

    вот еще годная статья на эту тему:
    http://www.shpargalko.ru/2011/03/23/search/

    теперь о применении.
    первое, что приходит в голову - то, что поисковики намеренно удаляют некоторые сайты из индекса - что гоша, что яша.
    некоторые ресурсы фиг найдешь.
    второе, следующее из принципа работы. так как пользователь сам формирует индекс, есть отличная возможность заполучить какое-то кол-во посетителей на свой сайт - просто проиндексировав его своим поисковиком.
    третье, yacy может индексировать как внешние ресурсы, так и внутренние (при этом наружу информацию об этом не отдает). так можно заполучить полностью бесплатный поиск для собственных нужд.

    yacy умеет индексить не только html, doc,pdf, графику, флэш, но и такие вещи как .torrent файлы, выдергивая оттуда информацию о содержимом. а это уже большое дело. к примеру, если какой-то трекер (допустим, те же пираты) проиндексирован вместе с контентом, то yacy позволит найти раздачу, в которой есть определенный файл (если я правильно понял)

    Добавлено через 3 минуты
    а еще в гугле есть практика удалять из результатов поиска страницы, на которые идут жалобы от правообладателей. ни разу не видели сообщения об исключенных страницах?
    опять-таки, если говорите про поиск на определенном сайте: да, он есть, но, прежде чем поискать на этом сайте, надо знать о его существовании.


    в сеошных целях так же можно использовать этот поисковик
    к примеру, натравил робота на группу сайтов, потом дергаешь из них контент по определенным запросам. и никто не забанит по айпу, и никто не попросит ввести капчу!
    с учетом того, что есть API к Yacy, эта задача решается "на ура".
     
    Красавчег нравится это.