парсинг гугла

Тема в разделе "PHP", создана пользователем netwom, 18 июн 2008.

Статус темы:
Закрыта.
Модераторы: latteo
  1. netwom

    netwom Создатель

    Регистр.:
    14 июн 2008
    Сообщения:
    27
    Симпатии:
    2
    Не пойму, как гугл определяет, что его робот парсит...
    Вроде все ему передаю, что мозилла передает. И куки принимаю, заменяю. И реферера каждый раз прошлого даю.
    И паузу рандомную делаю. Только ничего не помогает....
    Просто поиск парсить может. Выдачу вида
    Код:
    someword inurl:phpbb
    никак не хочет отдать. Говорит, что мой скрипт - робот!
    Обидно как-то.
    Может кто поможет? (Купить парсер - не предлагать)
     
  2. Dimkich

    Dimkich Постоялец

    Регистр.:
    10 июл 2007
    Сообщения:
    119
    Симпатии:
    36
    inurl: phpbb это как красная тряпка для быка:D
    Гугл особо не разбираясь после нескольких запросов посылает **х...

    инурл вообще рекомендуется не использовать при автоматических запросах.
    можно просто phpbb использовать без inurl.
    а можно
    phpbb -intext: phpbb
    ПС тема не про пхп
     
    dnd, denover и netwom нравится это.
  3. netwom

    netwom Создатель

    Регистр.:
    14 июн 2008
    Сообщения:
    27
    Симпатии:
    2
    Спасибо. Я так и подумал)
     
  4. denover

    denover Постоялец

    Регистр.:
    5 июн 2008
    Сообщения:
    56
    Симпатии:
    7
    гугль даже через прокси с inurl:phpbb посылает :( а вот совет
    Dimkich помог. Немного похитрить и можно без inurl не плохо парсить.
     
  5. netwom

    netwom Создатель

    Регистр.:
    14 июн 2008
    Сообщения:
    27
    Симпатии:
    2
    Что-то не пойму... Решил попарсить просто по ключевику. Но после 1000 гугл начинает мне отдавать только youtube.com. Не понимаю почему.
     
  6. devin

    devin Создатель

    Регистр.:
    18 окт 2007
    Сообщения:
    42
    Симпатии:
    1
    А больше 1000 потому что гугл вам и не даст попарсить :D
     
  7. netwom

    netwom Создатель

    Регистр.:
    14 июн 2008
    Сообщения:
    27
    Симпатии:
    2
    Да, точно.
    А вообще стоит использовать прокси для парсинга?
     
  8. Dimkich

    Dimkich Постоялец

    Регистр.:
    10 июл 2007
    Сообщения:
    119
    Симпатии:
    36
    Вообще конечно это необходимость...
    Если раньше помогали задержки между запросами и парси сколько влезет, то сейчас уже без этого никак. Попарсишь пару часов и всё - айпи в бане.
    Сам писал парсер, но он у меня прокси не юзает. Когда я его написал он у меня хорошо напарсил, пробовал недавно - бан айпи за час.
    Вот такие вот пироги:)
     
  9. shuffle

    shuffle Постоялец

    Регистр.:
    30 май 2008
    Сообщения:
    87
    Симпатии:
    21

    попробуй делать непохожие запросы подряд.
    если ты делаешь несколько запросов подряд где меняется только цифра (например), это быстро банится.
    периодически шли запросы которые не имеют особого смысла.
     
  10. Yaggi Jah

    Yaggi Jah Постоялец

    Регистр.:
    15 ноя 2006
    Сообщения:
    75
    Симпатии:
    31
    Помогает удаление cookies и смена браузера.
     
Статус темы:
Закрыта.