парсинг гугла

Статус
В этой теме нельзя размещать новые ответы.
Вообще гугл неплохо определяет ботов. Нужно эмулировать поведение реального браузера, плюс делать запросы с разных IP и с разными временными интервалами.

Вопрос: а зачем вообще выдачу парсить, раз такой геморрой? :)
 
причем тут куки если речь идет о парсинге через скрипты. На куки гуглу пофиг. Как и на то какой у вас броузер, включены ли в нем картинки, CSS и прочее.

бан производится на основе двух параметров - 1) частота запросов 2) характер запросов.
причем второй параметр имхо основной. Прикиньте есть организация с 500 (условно) рабочими местами и 1 внешним айпишником (прокси например). И все эти сотрудники что то ищут в гугле постоянно; Нельзя их банить никак.
 
Гугл сейчас особенно внимателен к запросам inurl, т.к. знает что в основном вставками inurl пользуются парсеры. Вводит свои ограницения, даже если вы с браузера серфите нередко натыкаешься на сообщения что вы бот, а если нет введите код с картинки.. Лучше всего при парсинге не использовать комманду inurl
 
Для эмуляции работы браузера пытался как раз куки нужные передавать каждый раз. Гугль их немного меняет после первых запросов. Короче и это не прошло)
 
  • Заблокирован
  • #19
А установка задержки между запросами разве не помогает?
 
Для эмуляции работы браузера пытался как раз куки нужные передавать каждый раз. Гугль их немного меняет после первых запросов. Короче и это не прошло)
Ну, с куками ты загнул))
Не в куках дело, а в хороших проксях.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху