Работа с гуглом

  • Автор темы webrazrabot4ik
  • Дата начала
Статус
В этой теме нельзя размещать новые ответы.
W

webrazrabot4ik

Прохожие
Один раз запустил (по глупости) парсилку гугла на 10 запросов, вытянул в одно мгновенье 5000 линков ---0

Но тепреь, какой запрос ему не даю... нифига.. неконюче... Может что-то в хеадерах нужно менять? Рефера пробовал толку нет :(

С гуглом соединяюсь через сокеты. Пытался и с инет хоста парсить и с локалки.. нифига :(

P.S. смотрел, смотрел, так и не понял куда лучше топик кинуть, если что перенестите!
 
webrazrabot4ik написал(а):
Один раз запустил (по глупости) парсилку гугла на 10 запросов, вытянул в одно мгновенье 5000 линков ---0

Но тепреь, какой запрос ему не даю... нифига.. неконюче... Может что-то в хеадерах нужно менять? Рефера пробовал толку нет :(

С гуглом соединяюсь через сокеты. Пытался и с инет хоста парсить и с локалки.. нифига :(

P.S. смотрел, смотрел, так и не понял куда лучше топик кинуть, если что перенестите!
чтоза парсер?
 
Юзай прокси и таймауты, выдачу без снипетов по 100 и будет счастье
 
wayfarer написал(а):
Юзай прокси и таймауты, выдачу без снипетов по 100 и будет счастье
"Юзай прокси" - типа через проксю конектится к гулю? Если да, то можно на этом этапе немного подробней?

"выдачу без снипетов по 100" - всмысле кол-во сайтов на странице в результате поиска? Правильно понял?
 
webrazrabot4ik написал(а):
"Юзай прокси" - типа через проксю конектится к гулю? Если да, то можно на этом этапе немного подробней?

"выдачу без снипетов по 100" - всмысле кол-во сайтов на странице в результате поиска? Правильно понял?
1. да досить гуглю через проксю, прокси бери с открытых источников их там немеряно, сам гугл подскажет где найти;) как только умерла прокся (гугль забанил) меняй ее и продолжай, все на автомате и будет тебе счастье

2. да 100 сайтов на странице результатов, без снипетов меньше запросов к базе гугла и меньший трафик, да и распарсить легче
 
webrazrabot4ik написал(а):
"Юзай прокси" - типа через проксю конектится к гулю? Если да, то можно на этом этапе немного подробней?

"выдачу без снипетов по 100" - всмысле кол-во сайтов на странице в результате поиска? Правильно понял?
Я так понимаю нужно изначально конектится к прокси серверу, после давать запрос
GET Для просмотра ссылки Войди или Зарегистрируйся *** [HOST = PROXI_IP]\r\n\r\n
Что-то в єтом роде. Правильно?:
 
webrazrabot4ik написал(а):
Я так понимаю нужно изначально конектится к прокси серверу, после давать запрос
GET Для просмотра ссылки Войди или Зарегистрируйся *** [HOST = PROXI_IP]\r\n\r\n
Что-то в єтом роде. Правильно?:
да, только лучше сделать чекер проксей автономный, пусть он паралельно с парсером чекает, будешь иметь всегда наготове прокси, умерла взял следующую и в путь, по крайней мере у меня так работает
 
Насчет проксей с фришных сервисов. Гуголь имеет свойство их банить. Поэтому перед парсингом по своему запросу отправь через прокси запрос на гуголь какое-нить распространенное слово. loan, car или ченить в таком духе. И проверь вернулись ли линки, если нет значит прокся забанена.
И еще рекомендую сделать чтобы с каждым запросом к гуглю использовался разный useragent, тогда гуголь думает что ты публичный прокси :).
Еще гуголь не отдаст тебе больше 5000 результатов, чтобы избежать этого дописывай к своему запросу site:.com и так по всем доменным зонам которые знаешь, так будет больше эффективность.
Прилагаю файлик с небольшим списком юзерагентов.
Выбирать случайного можно как-то так:
PHP:
function get_ua()
{
        $temp = explode("\r\n", file_get_contents("useragents.txt"));
        return $temp[rand(0,count($temp)-1)];
}

 

Вложения

  • useragents.txt
    10 KB · Просмотры: 24
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху