1. Начата процедура восстановления социальных групп. Лидерам старых и новых групп обязательно ознакомиться с регламентом проведения работ.

Php + curl парсинг выдачи гугла

Тема в разделе 'PHP', создана пользователем O Z, 23 янв 2012.

  1. TopicStarter Overlay

    O Z

    Доброго времени суток!
    Пишу парсер выдачи гугла и яндекса для определения позиций, использую php + curl && antigate.com для расшифровки каптч.
    С яндексом все просто, а вот с гуглом не очень.

    Капча гугла.
    При запросе, гугл редиректит на капчу, получаю форму + куча текста + сама капча:
    Чтобы продолжить, введите указанные ниже символы:<br><br>
    <img src="/sorry/image?id=7665202828380425241&amp;hl=ru" border="1" alt="Включите отображение изображений">
    После парсинга src, леплю ссылку: 'http://google.com' . $src;
    Делаю запрос по ссылке за капчой, дабы сохранить капчу в формате jpg и отправить на antigate. Но беда в том, что в ответ я получаю уже новую капчу хотя использую id капчи полученной вначале.

    Мне нужно сохранить капчу в .jpg для дальнейшей оправки на antigate.
    Может кто сталкивался, есть идеи? :thenks:
  2. Ни черта не понял....
    Вы запрашиваете капчу получаете капчу.... какая разница что она изменилась !? Главное то что сесия у гоши переписалась. То что ответит гоша смело вставляйте в поле капчи и отправляйте запрос.
  3. Хотя стоп... Вообще не понял вы как умудрились 2 раза запросить капчу !?
    Вы что выводите в браузер капчу с этим адресом а потом пытаетесь сохронить по этому же адресу картинку O_O
  4. uNknownMark

    Moderator
  5. uNknownMark
    Вопрос то стоит в том что он с капчей работает криво. Тут обойдет а в другом месте !??!?! Видимо он непонимает что капча не на ID`шки в адресе генерится.... они нужны для связи с сесией. Поэтому на 1 и тот же адрес разные коды в капче.
  6. uNknownMark

    Moderator
  7. Вот в этом то и извечная проблема... Ведь не поняв в чем ошибка и не исправив её она так и останится и в дальнейшем будит его только путать. Тогда проще вообще либо заказывать либо использовать готовое.

    Если я правельно понял то его ошибка в том что он думает что запросив 100500 раз капчу по одному и тому же адресу он получит 100500 одинаковых капче (не спорю имеются и подобные реализации там меняется только вид капчи а не значения в ней но эта реализация более редкая чем постоянное измеение значений потому как распознавалка может запрашивать 3 раза капчу распозновать её и сравнивать и только когда совподения более 2 выдовать как значения для капчи).
    Вот как только он это поймет и исправит более этой ошибки не допустит. Ведь не всегда будут имется готовые решения.
  8. TopicStarter Overlay

    O Z

    Яндекс так и обошел, спарсил данные капчи, слепил ссылку, сходил по ней, там забрал капчу, сохранил и все.
    Потому и таким же способом попытался обойти гугл, так как не знал о предназначении id капчи, но не тут то было.
    На готовое соскакивать не собираюсь, потому проблема пока остается.)
    Читал пост, спасибо.
    Но все же, вопрос остался в силе, как мне капчу сохранить то?
  9. Код выложите... Будит проще понять в чем проблема.
  10. Вся проблема в том что согласно этому предложению капчу вы запрашиваете 2 раза потому как запросив 1 раз вы бы не смогли утвердить что капча отличная... Нужно запрашивать капу 1 раз. Я просто понять немогу где и зачем запрашивать капчу дважды. По коду будит понятнее.