Парсинг гугла и бан

KillDead

Хранитель порядка
Регистрация
11 Авг 2006
Сообщения
894
Реакции
579
Помогите, может кто знает как гугл парсеры банит, по какому принципу? Сейчас заменил что несколько человек перестали оказывать такие услуги, это с новым гуглофильтром связано? Вроде бы учёл всё что можно, но гугл всё равно банит.

В общем мне понадобилось спарсить с гугла контент. Капчу решил не вводить- при бане, просто менять ип. Вначале выбрал в качестве проксей tor. Пустил его в несколько потоков . Но обнаружил странный бан - один поток баннится. Всё предусмотрено- выполняется смена ип у забаненного тора. и запрос повторяется. Но ! всё равно, этот же поток, после смены сервера и повтора запроса сразу же получает ещё один бан и так далее. Остальные же потоки работают отлично. После всех попыток обойти, решил что у гугла есть список серверов тора и они банятся по диапазону.

Набрал проксей- 2.5к носков. Запустил парсинг в 300 потоков. 40 минут парсер работал отлично, нерабочие прокси и забаненные удалялись и осталось незадействованных 1.5к проксей. И тут бан- все запросы вызывали your computer or network may be sending automated queries. пока прокси не кончились.

Что я сделал - урл запроса разый (разные get параметры) ,
хеадер запроса

Код:
Accept-Encoding: gzip,deflate
Accept: */*
Accept-Language: ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding: gzip,deflate
Accept-Charset: windows-1251, utf-8, iso-8859-1, utf-16, *;q=0.7
Connection: keep-alive

генерирую разный всё время. Юзер агент тоже.
И не смотря на это- гугл понимает что надо забанить. Как он это может делать?
 
кука гугла, агент интернет эксплорер, таймаут 15 секунд и побольше потоков, с такими условиями нормально парсится выдача гугла, далее встает вопрос капчи... если не использовать фильтр по uri не так часто ввод капчи требуется
 


агент интернет эксплорер, таймаут 15 секунд и побольше потоков

Хм, а интернет экплоер- это по опыту? я потому что подсовывал кучу разных юзерагентов, в количестве 30 штук самых распространённых. сейчас да 250 расширил базу, включил туда всё- и мобильники и линукс и мак.
Думал что есть вариант что всё таки генерировал недостаточно много хеадеров- 30 юзерагентов и штук 300 хеадеров, =10к уникальных заголовков, я сделал 20к запросов . Может он посчитал что такая уникальность- это слишком? И, если честно задержку я не ставил, думал- поменяю проксю и норм будет всё.
Сейчас ещё буду мучать.
 
сейчас да 250 расширил базу, включил туда всё- и мобильники и линукс и мак.

Вообще зачем менять юзер-агент? Просто приставьте к гуглу еже секундно идёт 100 миллионов(примерно) запросов, из них: 40% хром, 30% фокс, 30% другие (то же примерно), и +- 1000 ваших запросов не изменят картины...

Тем более если у вас на одном Ip сразу идёт запрос с одним юзер-агентом, потом с другим, т.е. ip тот же, а юзер-агенты разные. Это то же может повлиять на выдачу бана.

Вот что ещё может повлиять:
Нет куков: то есть нет, истории, это весьма подозрительно...
Много запросов.
Нет реферров(какой норм человек вводит ссылки в ручную? БОТ!)
Сами запросы, если присмотреться то в url передаются много параметров, их то же нужно учесть...
И наверно вы замечали когда часто делаешь запросы типа inurl и т.д. то тоже быстро просят ввести капчу...

И ещё, можно подумать на соксы, да используя их вы анонимны (всё конечно относительно но всё же) но их же не только вы используете... :) т.е не в смысле вообще соксы, а именно этот ip.
 
Тем более если у вас на одном Ip сразу идёт запрос с одним юзер-агентом, потом с другим, т.е. ip тот же, а юзер-агенты разные. Это то же может повлиять на выдачу бана.

ага, вроде бы это было одним из критериев. Сделал привязку ИП+ юзер агент баны значительно уменьшились.


Нет куков: то есть нет, истории, это весьма подозрительно...
вот куков нет. Я просто не знаю как их генерировать. А делать доп запрос на начальную страницу- не очень хочется.

И ещё, можно подумать на соксы, да используя их вы анонимны (всё конечно относительно но всё же) но их же не только вы используете... т.е не в смысле вообще соксы, а именно этот ip
естественно, делал на это скидку, что паблик прокси очень подвержены банам.
 
вот куков нет. Я просто не знаю как их генерировать. А делать доп запрос на начальную страницу- не очень хочется.

1) иногда бывает что соски живут достаточно долго, и да же если в данный момент прокси не пашет, это не значит что он уже никогда не заработает.
2) вот вы парсите прокси каждый день (к примеру) прокси отработали и вы их выбросили... патом опять парсите, но после нового парсинга 40% прокси скажем так "вчерашние" то есть их вы уже юзали.

Можно сделать бд, и добавлять только те прокси которых пока нет в бд, патом делаем выборку, из бд, проверяем прокси на работоспособность, в бд делаем отметку о работоспособности. Если в накопилось 5 меток что эта прокси не работает убираем её из бд...

Ах да я же о кукуах :): при первом удачном запуске пишем в бд куку, для данной прокси.
 
кто ещё гугл парсит, есть бан по основному ип если использовать прозрачные прокси? Пробовал отсылать 200к запросов через эти прокси, вроде ничего страшного не получил, или это ещё не большая для гугла цифра?
 
Назад
Сверху