Метапоисковик

Тема в разделе "PHP", создана пользователем RusBiT, 7 июн 2009.

Статус темы:
Закрыта.
Модераторы: latteo
  1. RusBiT

    RusBiT Постоялец

    Регистр.:
    29 мар 2007
    Сообщения:
    102
    Симпатии:
    3
    Проектирую метапоисковик. Использую три популярные системы: google, yabdex, rambler
    С Яндексом все ясно , XML Yandex точно нужно.
    В гугле был SOAP, теперь как я понял AJAX и ничего больше. Следовательно уже проблемнее с обработкой полученных данных
    Про Рамблер вообще ничего нормально не нашел.

    Как можно парсить инфу с гугля и рамблера?
     
  2. brutka

    brutka Создатель

    Регистр.:
    16 июл 2008
    Сообщения:
    281
    Симпатии:
    13
    Google имеет API, которым можно пользоваться для подачи запросов.
    Кроме того, есть вариант испольозвать взломанный протокол общаения тулбара (для поиска гугли по google xml - вываливаются не только google sitemaps:)
     
  3. CyberScript

    CyberScript Создатель

    Регистр.:
    14 ноя 2009
    Сообщения:
    10
    Симпатии:
    1
    Ваш поисковик очень быстро забанят по IP.
    А вообще, нечто подобное уже есть: nigma.ru
     
  4. everest

    everest

    Регистр.:
    20 дек 2006
    Сообщения:
    197
    Симпатии:
    20
    Я сам писал метапоисковик в начале века. Тогда ничего не банили. Потом яндекс стал бороться с автоматическими запросами.
    Метапоисковиков много. Но парсить результаты нужно действительно или через сервисы, предоставляемые поисковиками или по договоренности с их аднинистрацией.
    Ну млжно правда парсить через сайт-сателит (расположенный на другой IP). Забанили - выбираем другой сатй или IP и т.д. У меня так 3 года парсер работает без проблем.
     
  5. polyetilen

    polyetilen Заблокирован

    Регистр.:
    10 авг 2006
    Сообщения:
    814
    Симпатии:
    474
    к google ajax search api можно подключатся не только через ajax, но и php, flash, python, java:

    http://code.google.com/apis/ajaxsearch/documentation/#fonje_snippets_php

    даже необязательно регестрировать ключ для сайта

    например ссылка поиска через api

    http://ajax.googleapis.com/ajax/services/search/web?v=1.0&hl=ru&rsz=large&start=0&q=nulled

    возвращает данные в json формате которые распарсить с функцией json_decode и можно использовать.

    параметр start=0 номер страницы результата
     
Статус темы:
Закрыта.