Парсим Yandex & Ban

Статус
В этой теме нельзя размещать новые ответы.

D@nil

Постоялец
Регистрация
1 Окт 2006
Сообщения
340
Реакции
122
Здравствуйте!

Подскажите кто парсит выдачу яндекс поиска как правильно парсить чтоб не банило нас.

Сейчас далаю так.

передаю реффер, куки, узерагент

парсю с паузой 1,5 сек.

всеравно банит недоходя до 100 запросов.

PHP:
function curl_get($url) {
    $ch = curl_init ( $url );
    curl_setopt ( $ch, CURLOPT_ENCODING, '' );
    curl_setopt ( $ch, CURLOPT_REFERER, 'http://www.yandex.ru/' );
    curl_setopt ( $ch, CURLOPT_FOLLOWLOCATION, 1 );
    curl_setopt ( $ch, CURLOPT_TIMEOUT, 20 );
    curl_setopt ( $ch, CURLOPT_RETURNTRANSFER, 1 );
    
    curl_setopt ( $ch, CURLOPT_COOKIEFILE, 'cookie' );
    curl_setopt ( $ch, CURLOPT_COOKIEJAR, 'cookie' );
    
    curl_setopt ( $ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US; rv:1.9.1.1) Gecko/20090715 Firefox/3.5.1' );
    
    $serp = curl_exec ( $ch );
    
    curl_close ( $ch );
    
    return $serp;
}
XML, Прокси не предлагать =)
 
Данила, не парься ;)
бери seoclass.php
 
  • Нравится
Реакции: Atec
Ссылочкой поделишься?

Я погулил талкового не нашел класса.
 
Спасибо отличный класс, пригодится в работе.

А проблему свою решил парсингом майла =)
 
парсю с интервалом в 3 минуты, за день что мне надо выуживаю, зачем напрягать сервера яндекса.
 
Таймаута в 1,5 сек очень мало.
Когда последний раз заряжал семонитор, при чекании позиций ставлю таймаут 30-60 сек. Несколько сотен запросов проверялось без бана.
 
таймаут 10 секунд хватает с головой
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху