Метапоисковик

Статус
В этой теме нельзя размещать новые ответы.

RusBiT

Постоялец
Регистрация
29 Мар 2007
Сообщения
101
Реакции
3
Проектирую метапоисковик. Использую три популярные системы: google, yabdex, rambler
С Яндексом все ясно , XML Yandex точно нужно.
В гугле был SOAP, теперь как я понял AJAX и ничего больше. Следовательно уже проблемнее с обработкой полученных данных
Про Рамблер вообще ничего нормально не нашел.

Как можно парсить инфу с гугля и рамблера?
 
Google имеет API, которым можно пользоваться для подачи запросов.
Кроме того, есть вариант испольозвать взломанный протокол общаения тулбара (для поиска гугли по google xml - вываливаются не только google sitemaps:)
 
Ваш поисковик очень быстро забанят по IP.
А вообще, нечто подобное уже есть: nigma.ru
 
Я сам писал метапоисковик в начале века. Тогда ничего не банили. Потом яндекс стал бороться с автоматическими запросами.
Метапоисковиков много. Но парсить результаты нужно действительно или через сервисы, предоставляемые поисковиками или по договоренности с их аднинистрацией.
Ну млжно правда парсить через сайт-сателит (расположенный на другой IP). Забанили - выбираем другой сатй или IP и т.д. У меня так 3 года парсер работает без проблем.
 
к google ajax search api можно подключатся не только через ajax, но и php, flash, python, java:

даже необязательно регестрировать ключ для сайта

например ссылка поиска через api

возвращает данные в json формате которые распарсить с функцией json_decode и можно использовать.

параметр start=0 номер страницы результата
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху