Парсинг гугла и бан

Тема в разделе "Зарубежные поисковики", создана пользователем KillDead, 11 фев 2012.

  1. KillDead

    KillDead

    Регистр.:
    11 авг 2006
    Сообщения:
    890
    Симпатии:
    562
    Помогите, может кто знает как гугл парсеры банит, по какому принципу? Сейчас заменил что несколько человек перестали оказывать такие услуги, это с новым гуглофильтром связано? Вроде бы учёл всё что можно, но гугл всё равно банит.

    В общем мне понадобилось спарсить с гугла контент. Капчу решил не вводить- при бане, просто менять ип. Вначале выбрал в качестве проксей tor. Пустил его в несколько потоков . Но обнаружил странный бан - один поток баннится. Всё предусмотрено- выполняется смена ип у забаненного тора. и запрос повторяется. Но ! всё равно, этот же поток, после смены сервера и повтора запроса сразу же получает ещё один бан и так далее. Остальные же потоки работают отлично. После всех попыток обойти, решил что у гугла есть список серверов тора и они банятся по диапазону.

    Набрал проксей- 2.5к носков. Запустил парсинг в 300 потоков. 40 минут парсер работал отлично, нерабочие прокси и забаненные удалялись и осталось незадействованных 1.5к проксей. И тут бан- все запросы вызывали your computer or network may be sending automated queries. пока прокси не кончились.

    Что я сделал - урл запроса разый (разные get параметры) ,
    хеадер запроса

    Код:
    Accept-Encoding: gzip,deflate
    Accept: */*
    Accept-Language: ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3
    Accept-Encoding: gzip,deflate
    Accept-Charset: windows-1251, utf-8, iso-8859-1, utf-16, *;q=0.7
    Connection: keep-alive
    генерирую разный всё время. Юзер агент тоже.
    И не смотря на это- гугл понимает что надо забанить. Как он это может делать?
     
  2. afonya09

    afonya09

    Регистр.:
    31 янв 2009
    Сообщения:
    260
    Симпатии:
    18
    Делай таймаут для прокси с которого удалось сделать запрос 120 сек. и сохраняй с ним куки и юзер агента. Такую очереть просто реализовать при помощи LinkedList. В этм деле главное не спешить, тише едешь дальше будешь. Что именно ты парсишь у гугла?? Выдачу???
     
  3. psn

    psn

    Регистр.:
    30 апр 2009
    Сообщения:
    227
    Симпатии:
    30
    кука гугла, агент интернет эксплорер, таймаут 15 секунд и побольше потоков, с такими условиями нормально парсится выдача гугла, далее встает вопрос капчи... если не использовать фильтр по uri не так часто ввод капчи требуется
     
  4. KillDead

    KillDead

    Регистр.:
    11 авг 2006
    Сообщения:
    890
    Симпатии:
    562
    :eek:ого, не слишком ли огромная задержка? с такой я буду целую вечность парсить.


    Хм, а интернет экплоер- это по опыту? я потому что подсовывал кучу разных юзерагентов, в количестве 30 штук самых распространённых. сейчас да 250 расширил базу, включил туда всё- и мобильники и линукс и мак.
    Думал что есть вариант что всё таки генерировал недостаточно много хеадеров- 30 юзерагентов и штук 300 хеадеров, =10к уникальных заголовков, я сделал 20к запросов . Может он посчитал что такая уникальность- это слишком? И, если честно задержку я не ставил, думал- поменяю проксю и норм будет всё.
    Сейчас ещё буду мучать.
     
  5. Бобр Добр

    Бобр Добр

    Регистр.:
    17 янв 2010
    Сообщения:
    242
    Симпатии:
    37
    Вообще зачем менять юзер-агент? Просто приставьте к гуглу еже секундно идёт 100 миллионов(примерно) запросов, из них: 40% хром, 30% фокс, 30% другие (то же примерно), и +- 1000 ваших запросов не изменят картины...

    Тем более если у вас на одном Ip сразу идёт запрос с одним юзер-агентом, потом с другим, т.е. ip тот же, а юзер-агенты разные. Это то же может повлиять на выдачу бана.

    Вот что ещё может повлиять:
    Нет куков: то есть нет, истории, это весьма подозрительно...
    Много запросов.
    Нет реферров(какой норм человек вводит ссылки в ручную? БОТ!)
    Сами запросы, если присмотреться то в url передаются много параметров, их то же нужно учесть...
    И наверно вы замечали когда часто делаешь запросы типа inurl и т.д. то тоже быстро просят ввести капчу...

    И ещё, можно подумать на соксы, да используя их вы анонимны (всё конечно относительно но всё же) но их же не только вы используете... :) т.е не в смысле вообще соксы, а именно этот ip.
     
  6. KillDead

    KillDead

    Регистр.:
    11 авг 2006
    Сообщения:
    890
    Симпатии:
    562
    ага, вроде бы это было одним из критериев. Сделал привязку ИП+ юзер агент баны значительно уменьшились.


    вот куков нет. Я просто не знаю как их генерировать. А делать доп запрос на начальную страницу- не очень хочется.

    естественно, делал на это скидку, что паблик прокси очень подвержены банам.
     
  7. Бобр Добр

    Бобр Добр

    Регистр.:
    17 янв 2010
    Сообщения:
    242
    Симпатии:
    37
    1) иногда бывает что соски живут достаточно долго, и да же если в данный момент прокси не пашет, это не значит что он уже никогда не заработает.
    2) вот вы парсите прокси каждый день (к примеру) прокси отработали и вы их выбросили... патом опять парсите, но после нового парсинга 40% прокси скажем так "вчерашние" то есть их вы уже юзали.

    Можно сделать бд, и добавлять только те прокси которых пока нет в бд, патом делаем выборку, из бд, проверяем прокси на работоспособность, в бд делаем отметку о работоспособности. Если в накопилось 5 меток что эта прокси не работает убираем её из бд...

    Ах да я же о кукуах :): при первом удачном запуске пишем в бд куку, для данной прокси.
     
  8. KillDead

    KillDead

    Регистр.:
    11 авг 2006
    Сообщения:
    890
    Симпатии:
    562
    кто ещё гугл парсит, есть бан по основному ип если использовать прозрачные прокси? Пробовал отсылать 200к запросов через эти прокси, вроде ничего страшного не получил, или это ещё не большая для гугла цифра?
     
  9. bork75

    bork75 The Team

    Регистр.:
    21 июн 2008
    Сообщения:
    1.451
    Симпатии:
    677

    Я парсил раньше их Перейти по ссылке - без всяких прокси в 10 потоков
    Только в настройках найди там русский язык/ что бы в выдачи японских сайтов не было
    Ещё парсил Перейти по ссылке
     
    KillDead нравится это.