1. Задавайте здесь вопросы о коде, которые не подходят в другие разделы, такие как:
    Дизайн > Верстка
    PHP > Как сделать на PHP
    Скрыть объявление

Работа с гуглом

Тема в разделе "Web Coding", создана пользователем webrazrabot4ik, 17 окт 2006.

Статус темы:
Закрыта.
Модераторы: latteo
  1. webrazrabot4ik

    webrazrabot4ik Прохожие

    Один раз запустил (по глупости) парсилку гугла на 10 запросов, вытянул в одно мгновенье 5000 линков ---0

    Но тепреь, какой запрос ему не даю... нифига.. неконюче... Может что-то в хеадерах нужно менять? Рефера пробовал толку нет :(

    С гуглом соединяюсь через сокеты. Пытался и с инет хоста парсить и с локалки.. нифига :(

    P.S. смотрел, смотрел, так и не понял куда лучше топик кинуть, если что перенестите!
     
  2. RIGALAIZ

    RIGALAIZ Прохожие

    чтоза парсер?
     
  3. webrazrabot4ik

    webrazrabot4ik Прохожие

    Сам писал!
     
  4. wayfarer

    wayfarer Прохожие

    Юзай прокси и таймауты, выдачу без снипетов по 100 и будет счастье
     
  5. webrazrabot4ik

    webrazrabot4ik Прохожие

    "Юзай прокси" - типа через проксю конектится к гулю? Если да, то можно на этом этапе немного подробней?

    "выдачу без снипетов по 100" - всмысле кол-во сайтов на странице в результате поиска? Правильно понял?
     
  6. wayfarer

    wayfarer Прохожие

    1. да досить гуглю через проксю, прокси бери с открытых источников их там немеряно, сам гугл подскажет где найти;) как только умерла прокся (гугль забанил) меняй ее и продолжай, все на автомате и будет тебе счастье

    2. да 100 сайтов на странице результатов, без снипетов меньше запросов к базе гугла и меньший трафик, да и распарсить легче
     
  7. webrazrabot4ik

    webrazrabot4ik Прохожие

    Я так понимаю нужно изначально конектится к прокси серверу, после давать запрос
    GET Перейти по ссылке *** [HOST = PROXI_IP]\r\n\r\n
    Что-то в єтом роде. Правильно?:
     
  8. wayfarer

    wayfarer Прохожие

    да, только лучше сделать чекер проксей автономный, пусть он паралельно с парсером чекает, будешь иметь всегда наготове прокси, умерла взял следующую и в путь, по крайней мере у меня так работает
     
  9. watson_

    watson_

    Регистр.:
    12 окт 2006
    Сообщения:
    257
    Симпатии:
    48
    а поделиться можешь?
     
  10. Ahmea

    Ahmea Прохожие

    Насчет проксей с фришных сервисов. Гуголь имеет свойство их банить. Поэтому перед парсингом по своему запросу отправь через прокси запрос на гуголь какое-нить распространенное слово. loan, car или ченить в таком духе. И проверь вернулись ли линки, если нет значит прокся забанена.
    И еще рекомендую сделать чтобы с каждым запросом к гуглю использовался разный useragent, тогда гуголь думает что ты публичный прокси :).
    Еще гуголь не отдаст тебе больше 5000 результатов, чтобы избежать этого дописывай к своему запросу site:.com и так по всем доменным зонам которые знаешь, так будет больше эффективность.
    Прилагаю файлик с небольшим списком юзерагентов.
    Выбирать случайного можно как-то так:
    PHP:
    function get_ua()
    {
            
    $temp explode("\r\n"file_get_contents("useragents.txt"));
            return 
    $temp[rand(0,count($temp)-1)];
    }

     

    Вложения:

    • useragents.txt
      Размер файла:
      10 КБ
      Просмотров:
      24
Статус темы:
Закрыта.