Php + curl парсинг выдачи гугла

TO Для просмотра ссылки Войди или Зарегистрируйся
Вы снова поспешны с кодом.... Вы хоть проверяете код при постинге ? Если я не проверяю код я об этом предупреждаю но вы не только этого не делаете но ещё и выдаете код который неверен! Следите пожалуйста за этим... Иначе в данном разделе вы только запутаете людей...
 
Дело в том что у нас формируется ссылка
Да, вот такая получается:
Для просмотра ссылки Войди или Зарегистрируйся

Так как я искомое слово подставляю в ссылку:
$link = "Для просмотра ссылки Войди или Зарегистрируйся$word&num=$count";
может мне лучше использовать $word = str_replace(' ', '+', $word)?
А потом уже при надобности urlencode($link).

Вот что есть (сначала первая капча на которую меня отправляет гугл, потом вторая, после парсинга id капчи, получения ответа от антигейта:(
HTML:
<html dir="LTR"><head><meta http-equiv="content-type" content="text/html; charset=utf-8"><title>http://www.google.com.ua/search?sourceid=chrome&amp;ie=UTF-8&amp;q=%D0%9F%D0%BE%D0%B2%D1%8B%D1%88%D0%B5%D0%BD%D0%B8%D0%B5+%D0%BF%D0%BE+%D1%81%D0%BB%D1%83%D0%B6%D0%B1%D0%B5&amp;num=20</title></head>
<body style="font-family: arial, sans-serif; background-color: #fff; color: #000; padding:20px; font-size:18px;" onload="e=document.getElementById('captcha');if(e){e.focus();}">
<div style="max-width:400px;">
<hr noshade="" size="1" style="color:#ccc; background-color:#ccc;"><br>
 
Щоб продовжити, введіть зображені нижче символи:<br><br>
<img src="/sorry/image?id=11974691493924419143&amp;hl=uk" border="1" alt="Увімкніть показ зображень"><br><br><form action="Captcha" method="get"><input type="hidden" name="continue" value="http://www.google.com.ua/search?sourceid=chrome&amp;ie=UTF-8&amp;q=%D0%9F%D0%BE%D0%B2%D1%8B%D1%88%D0%B5%D0%BD%D0%B8%D0%B5+%D0%BF%D0%BE+%D1%81%D0%BB%D1%83%D0%B6%D0%B1%D0%B5&amp;num=20"><input type="hidden" name="id" value="11974691493924419143"><input type="text" name="captcha" value="" id="captcha" size="12" style="font-size:16px; padding:3px 0 3px 5px; margin-left:0px;"><input type="submit" name="submit" value="Надіслати" style="font-size:18px; padding:4px 0;"><br><br><br></form>
<hr noshade="" size="1" style="color:#ccc; background-color:#ccc;">
<div style="font-size:13px;">
<b>Про цю сторінку</b><br><br>Наші системи виявили нетиповий трафік із вашої комп'ютерної мережі. Ця сторінка перевіряє, чи запити дійсно надсилаються вами, а не роботом. <a href="#" onclick="document.getElementById('infoDiv').style.display='block';">Чому це сталося?</a><br><br>
<div id="infoDiv" style="display:none; background-color:#eee; padding:10px; margin:0 0 15px 0; line-height:1.4em;">
Ця сторінка з'являється, коли Google автоматично виявляє запити, надіслані з вашої комп'ютерної мережі, які, ймовірно, порушують <a href="http://www.google.com/accounts/TOS">Загальні положення та умови Google</a>. Блокування закінчиться після припинення таких запитів. А тим часом проходження тесту CAPTCHA дозволить вам і надалі користуватися нашими службами.<br><br>Такий трафік може бути спричинений зловмисним програмним забезпеченням, плагіном у веб-переглядачі чи сценарієм, що надсилає автоматичні запити. Якщо це підключення до мережі є в спільному доступі, зверніться до свого адміністратора по допомогу – можливо, відповідальність лежить на іншому комп'ютері, що використовує цю ж ІР-адресу. <a href="http://www.google.com/support/bin/answer.py?answer=86640">Докладніше</a><br><br>Іноді від вас може вимагатися пройти тест CAPTCHA, якщо ви використовуєте розширені пошукові терміни, які зазвичай застосовуються роботами, або дуже швидко надсилаєте запити.
 
 
</div><br>
IP-адреса: 81.222.215.83<br>Час: 2012-01-30T13:49:35Z<br>URL-адреса: http://www.google.com.ua/search?sourceid=chrome&amp;ie=UTF-8&amp;q=%D0%9F%D0%BE%D0%B2%D1%8B%D1%88%D0%B5%D0%BD%D0%B8%D0%B5+%D0%BF%D0%BE+%D1%81%D0%BB%D1%83%D0%B6%D0%B1%D0%B5&amp;num=20<br>
</div></div>
<!-- Конец первой капчи -->
 
snedumsi // Ответ от антигейта
http://www.google.com.ua/sorry/Captcha?continue=http://www.google.com.ua/search?sourceid=chrome&amp;ie=UTF-8&amp;q=Повышение+по+службе&amp;num=20&amp;id=11974691493924419143&amp;captcha=snedumsi&amp;submit=Submit // Слепленная ссылка с ответом
 
<!-- Новая капча -->
<meta http-equiv="content-type" content="text/html; charset=utf-8"><title>http://www.google.com.ua/search?sourceid=chrome</title>
 
<div style="max-width:400px;">
<hr noshade="" size="1" style="color:#ccc; background-color:#ccc;"><br>
 
Щоб продовжити, введіть зображені нижче символи:<br><br>
<img src="/sorry/image?id=6514054992814924198&amp;hl=uk" border="1" alt="Увімкніть показ зображень"><br><br><form action="Captcha" method="get"><input type="hidden" name="continue" value="http://www.google.com.ua/search?sourceid=chrome"><input type="hidden" name="id" value="6514054992814924198"><input type="text" name="captcha" value="" id="captcha" size="12" style="font-size:16px; padding:3px 0 3px 5px; margin-left:0px;"><input type="submit" name="submit" value="Надіслати" style="font-size:18px; padding:4px 0;"><br><br><br></form>
<hr noshade="" size="1" style="color:#ccc; background-color:#ccc;">
<div style="font-size:13px;">
<b>Про цю сторінку</b><br><br>Наші системи виявили нетиповий трафік із вашої комп'ютерної мережі. Ця сторінка перевіряє, чи запити дійсно надсилаються вами, а не роботом. <a href="#" onclick="document.getElementById('infoDiv').style.display='block';">Чому це сталося?</a><br><br>
<div id="infoDiv" style="display:none; background-color:#eee; padding:10px; margin:0 0 15px 0; line-height:1.4em;">
Ця сторінка з'являється, коли Google автоматично виявляє запити, надіслані з вашої комп'ютерної мережі, які, ймовірно, порушують <a href="http://www.google.com/accounts/TOS">Загальні положення та умови Google</a>. Блокування закінчиться після припинення таких запитів. А тим часом проходження тесту CAPTCHA дозволить вам і надалі користуватися нашими службами.<br><br>Такий трафік може бути спричинений зловмисним програмним забезпеченням, плагіном у веб-переглядачі чи сценарієм, що надсилає автоматичні запити. Якщо це підключення до мережі є в спільному доступі, зверніться до свого адміністратора по допомогу – можливо, відповідальність лежить на іншому комп'ютері, що використовує цю ж ІР-адресу. <a href="http://www.google.com/support/bin/answer.py?answer=86640">Докладніше</a><br><br>Іноді від вас може вимагатися пройти тест CAPTCHA, якщо ви використовуєте розширені пошукові терміни, які зазвичай застосовуються роботами, або дуже швидко надсилаєте запити.
 
 
</div><br>
IP-адреса: 81.222.215.83<br>Час: 2012-01-30T13:49:58Z<br>URL-адреса: http://www.google.com.ua/search?sourceid=chrome<br>
</div></div>
 
</body></html>

Вот еще куки, может быть Вы заметите что-то полезное:
.google.com TRUE/FALSE 1327940604 GDSESS ID=ec64973b62885acf:TM=1327929804:C=c:IP=81.222.215.83-:S=ADSvE-drGsMBqKL4ascf9ogExTye1mnSWg
 
function google_captcha ($id, $link, $responce)
PHP:
function google_captcha ($id, $link, $responce) {
$result = 'http://www.google.com.ua/sorry/Captcha?continue='.urldecode($link).'&id='.$id.'&captcha='.$responce.'&submit=Submit';
return $result;
}
 
urldecode(urldecode($link))
Выдает ошибку:
400.
That’s an error.
Your client has issued a malformed or illegal request.
 
:eek:
Добился капчи в браузере....
эээээ а веть и руками не проходит !
Он тупо просит и просит и просит капчу. У них походу чет напутано там изначально. Потому как даже руками через бравзер не проходит.

+ Заметил вот что...
он делает 2 редиректа и в итоге 503 ошибка....

=====__OUT__=====
Headers
GET /search?aq=f&sourceid=chrome&ie=UTF-8&q=de062e7f3eefb421b585d1bcf1d0e795&start=00 HTTP/1.1
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; de-DE; rv:1.7.6) Gecko/20050226 Firefox/1.0.1
Host: Для просмотра ссылки Войди или Зарегистрируйся
Accept: */*
Accept-Encoding: deflate, gzip
Referer:


Post Data
Cookie:

=====__IN__=====
Headers
HTTP/1.1 302 Found
Cache-Control: private
Content-Type: text/html; charset=UTF-8
Location: Для просмотра ссылки Войди или Зарегистрируйся
Content-Length: 356
Date: Mon, 30 Jan 2012 22:07:51 GMT
Server: GFE/2.0


=====__OUT__=====
Headers
GET /sorry/?continue=Для просмотра ссылки Войди или Зарегистрируйся HTTP/1.1
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; de-DE; rv:1.7.6) Gecko/20050226 Firefox/1.0.1
Host: Для просмотра ссылки Войди или Зарегистрируйся
Accept: */*
Accept-Encoding: deflate, gzip
Referer: Для просмотра ссылки Войди или Зарегистрируйся


Post Data
Cookie:

=====__IN__=====
Headers
HTTP/1.1 302 Found
Location: Для просмотра ссылки Войди или Зарегистрируйся
Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Pragma: no-cache
Date: Mon, 30 Jan 2012 22:07:52 GMT
Content-Type: text/html; charset=UTF-8
Server: HTTP server (unknown)
Content-Length: 355
X-XSS-Protection: 1; mode=block
X-Frame-Options: SAMEORIGIN


=====__OUT__=====
Headers
GET /sorry/?continue=Для просмотра ссылки Войди или Зарегистрируйся HTTP/1.1
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; de-DE; rv:1.7.6) Gecko/20050226 Firefox/1.0.1
Host: Для просмотра ссылки Войди или Зарегистрируйся
Accept: */*
Accept-Encoding: deflate, gzip
Referer: Для просмотра ссылки Войди или Зарегистрируйся


Post Data
Cookie:

=====__IN__=====
Headers
HTTP/1.1 503 Service Unavailable
Date: Mon, 30 Jan 2012 22:07:52 GMT
Pragma: no-cache
Expires: Fri, 01 Jan 1990 00:00:00 GMT
Cache-Control: no-cache, must-revalidate
Content-Type: text/html
Server: HTTP server (unknown)
Content-Length: 3872
X-XSS-Protection: 1; mode=block
X-Frame-Options: SAMEORIGIN
Вот итог работы моей либы....

UPD(13 фев 2012) : Пля.... :crazy: Такое очючение бут то мне интереснее данная тема чем ТС
Писал писал... и пропал....
Хоть бы тему закрыл, мол все достало бросил к чертям... или все все спс я разобрался и реализовал.
А так... печаль...
 
Возникла такая же проблема.. только пишу на дельфи, но это не важно, т.к. суть одна.
прошу помощи.
 
может я повторюсь, но проблема в том что гугл по 1 и тому же урл капчи выдаёт разные изображения. Вот для примера потыкайте несколько раз F5 на Для просмотра ссылки Войди или Зарегистрируйся
И получается если парсишь урл капчи и шлёшь её в антигейт то приходит уже правильный ответ на ту капчу что они открыли)
пока борюська и решение не нашёл =(
 
Попробуй спарсить картинку каптчи и отдать ее на антигейт и все у тебя получится.
 
Попробуй спарсить картинку каптчи и отдать ее на антигейт и все у тебя получится.
всяко разно пробовал, часа 4 в сцуботу убил, но пока побороть не удалось.
пробовал даже генерить имя картинке и сразу его отдавать в антигейт - сёравно не помогло.
я конечно не исключаю где-то свою ошибку, но пока по нулям
 
Вот тут то и вопрос какова черта вы делаете в разделе PHP
Не имеет значения говарите ? окай

file_put_content('./capcha.jpg', $capcha_data);

явный ответ на ваш вопрос в условиях названия раздела.
 
Вот тут то и вопрос какова черта вы делаете в разделе PHP
Не имеет значения говарите ? окай

file_put_content('./capcha.jpg', $capcha_data);

явный ответ на ваш вопрос в условиях названия раздела.
Вы, простите, сколько сообщений вверх прочитали прежде чем это написать??
 
Назад
Сверху