Парсить бинг по 50 результатов

Статус
В этой теме нельзя размещать новые ответы.

phillip

Полезный
Регистрация
4 Сен 2007
Сообщения
411
Реакции
15
Хочу распарсить bing.com, но надо чтобы обязательно было на странице по 50 результатов.
Вот допустим страница Для просмотра ссылки Войди или Зарегистрируйся
Если мы человек, то мы нажимаем в правом верхнем углу Настройки, и выбираем- показывать 50 результатов на странице. А как поставить по 50 страниц если мы- скрипт?? Попробовал перехватывать заголовки и post данные. Ничего. А желательно как-то с помощью курла сделать это (приказать отображать по 50 результатов).
Помогите!!! :bc::bc:
 
Хочу распарсить bing.com, но надо чтобы обязательно было на странице по 50 результатов.
Вот допустим страница Для просмотра ссылки Войди или Зарегистрируйся
Если мы человек, то мы нажимаем в правом верхнем углу Настройки, и выбираем- показывать 50 результатов на странице. А как поставить по 50 страниц если мы- скрипт?? Попробовал перехватывать заголовки и post данные. Ничего. А желательно как-то с помощью курла сделать это (приказать отображать по 50 результатов).
Помогите!!! :bc::bc:

В SRCHHPGUSR куке есть NRSLT=50
 
Спасибо. тогда мне надо для начала сохранить куки, полученные от бинга. Пробую так, что-то не получается :nezn:

PHP:
$agent = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; ru-RU; rv:1.7.12) Gecko/20050919 Firefox/1.0.7'; 
  $header[] = "Accept: text/html;q=0.9, text/plain;q=0.8, image/png, */*;q=0.5" ; 
  $header[] = "Accept_charset: windows-1251, utf-8, utf-16;q=0.6, *;q=0.1"; 
  $header[] = "Accept_encoding: identity"; 
  $header[] = "Accept_language: en-us,en;q=0.5"; 
  $header[] = "Connection: close"; 
  $header[] = "Cache-Control: no-store, no-cache, must-revalidate"; 
  $header[] = "Keep_alive: 300"; 
  $header[] = "Expires: Thu, 01 Jan 1970 00:00:01 GMT"; 
  
	$url='http://www.bing.com/search?q=nulled&go=&form=QBRE&filt=all';
  $ch = curl_init();  
  curl_setopt($ch, CURLOPT_URL,$url);  
  curl_setopt($ch, CURLOPT_HEADER, 1); 
  curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); 
  curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);  
  curl_setopt($ch, CURLOPT_TIMEOUT, 30); 
  curl_setopt ($ch, CURLOPT_SSL_VERIFYPEER, FALSE);  
  curl_setopt($ch, CURLOPT_POST, 1); 
  //curl_setopt($ch, CURLOPT_POSTFIELDS, $query_str); 
  curl_setopt ( $ch , CURLOPT_USERAGENT , $agent); 
  curl_setopt ( $ch , CURLOPT_HTTPHEADER , $header); 

  curl_setopt($ch, CURLOPT_COOKIEJAR, $_SERVER['DOCUMENT_ROOT'].'/cookies.txt');
	curl_setopt($ch, CURLOPT_COOKIEFILE, $_SERVER['DOCUMENT_ROOT'].'/cookies.txt'); 
  $result = curl_exec($ch); 
  print_r(file($_SERVER['DOCUMENT_ROOT'].'/cookies.txt'));
  curl_close($ch);
 
можно зарегистрироваться в bing api

и скачивать результат поиска в форматах xml, json

результат будет по ссылке

Web.Count - количество результатов, максимум 50
Web.Offset - показывать начиная с
 
спасибо, но... подходит не очень( по запросу porn таким образом ничего не отдает
 
&Adult=off
отключит фильтр

&Options=EnableHighlighting
отмечает слова

&Market=en-us
область поиска
 
что бы новую тему не создавать - спрошу здесь

при парсинге бинга по 50 страниц
выставил 15 сек - этот гад, судя по всему, забанил ип - больше 4 страниц не отдает

хотя до этого, когда руками проверял - точно до 7 доходил

кто знает, какую задержку ему нужно ставить?
и через сколько бан с ип снимается?
 
Пользуй лучше базу проксей, как ни крути, рано или поздно ИП забанят :(
 
Все же АПИ мне не совсем подходит. хочу курлом распарсить. Но что-то беда, бинг говорит что запрос мой неверен. Ту же линку открываю в браузере- все норм!
Вот примерно так делаю:
PHP:
$agent = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; ru-RU; rv:1.7.12) Gecko/20050919 Firefox/1.0.7'; 
  $header[] = "Accept: text/html;q=0.9, text/plain;q=0.8, image/png, */*;q=0.5" ; 
  $header[] = "Accept_charset: windows-1251, utf-8, utf-16;q=0.6, *;q=0.1"; 
  $header[] = "Accept_encoding: identity"; 
  $header[] = "Accept_language: en-us,en;q=0.5"; 
  $header[] = "Connection: close"; 
  $header[] = "Cache-Control: no-store, no-cache, must-revalidate"; 
  $header[] = "Keep_alive: 300"; 
  $header[] = "Expires: Thu, 01 Jan 1970 00:00:01 GMT"; 
  
  $url='http://www.bing.com/search?q=films&go=&form=QBRE&filt=lf';
  $ch = curl_init();  
  curl_setopt($ch, CURLOPT_URL,$url);  
  curl_setopt($ch, CURLOPT_HEADER, 1); 
  curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); 
  curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);  
  curl_setopt($ch, CURLOPT_TIMEOUT, 30); 
  curl_setopt ($ch, CURLOPT_SSL_VERIFYPEER, FALSE);  
  curl_setopt($ch, CURLOPT_POST, 1); 
  //curl_setopt($ch, CURLOPT_POSTFIELDS, $query_str); 
  curl_setopt ( $ch , CURLOPT_USERAGENT , $agent); 
  curl_setopt ( $ch , CURLOPT_HTTPHEADER , $header); 
  //curl_setopt($ch, CURLOPT_COOKIEJAR, $_SERVER['DOCUMENT_ROOT'].'/cookies.txt');
  //curl_setopt($ch, CURLOPT_COOKIEFILE,  $_SERVER['DOCUMENT_ROOT'].'/cookies.txt'); 
  $result = curl_exec($ch); 
  //print_r(file($_SERVER['DOCUMENT_ROOT'].'/cookies.txt'));
  curl_close($ch);  

echo $result;
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху