Парсинг с сайта www.kinopoisk.ru

Статус
В этой теме нельзя размещать новые ответы.

Joker84

Постоялец
Регистрация
8 Авг 2007
Сообщения
68
Реакции
2
Добрый день, немогу понять в чем проблема. написал парсинг с использованием curl
PHP:
		$userAgent = "Opera/9.10 (Windows NT 5.1; U; ru)";
		$target_url = "http://www.kinopoisk.ru/level/1/film/".$_POST['ID_Film'];// 195524

		$ch = curl_init();

		curl_setopt($ch, CURLOPT_USERAGENT, $userAgent);
		curl_setopt($ch, CURLOPT_URL,$target_url);
		curl_setopt($ch, CURLOPT_FAILONERROR, true);
		curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);

		curl_setopt($ch, CURLOPT_RETURNTRANSFER,true);
		curl_setopt($ch, CURLOPT_TIMEOUT, 100);

		$html = curl_exec($ch);
		echo $html;
		if (!$html) {
		echo "<br />cURL error number:" .curl_errno($ch);
		echo "<br />cURL error:" . curl_error($ch);
		exit;
		}

Дальше идет обработка полученного HTML кода

Парсинг все благополучно работал. но вот пару дней назад перестал, и выдает

PHP:
cURL error number:0
cURL error:


Подскажите в чем может быть проблема
 
У меня на target'е 404 выдаёт вообще, попробую с твоим скриптом поигратся, попробуй тупо url смени.
 
возможно что в листинге там в URL стоит .$_POST['ID_Film']

за место .$_POST['ID_Film'] укажите какой нибуть ID фильма например 195524
 
Включи куки и будет тебе счастье
curl_setopt($ch, CURLOPT_COOKIEJAR, 'D:\sites\test\test_cockies.jar');
curl_setopt($ch, CURLOPT_COOKIEFILE, 'D:\sites\test\test_cockies.jar');
curl_setopt($ch, CURLOPT_COOKIESESSION, true);
 
А полный код парсера можно выложить? Для ознакомительных целей так сказать )
 
Парсинг все благополучно работал. но вот пару дней назад перестал
Подскажите в чем может быть проблема
Кинопоиск специально блокирует IP с которых очень часто идут запросы, очень хорошо определяет робот вы или пользователь.
Поэтому используйте сеть прокси-серверов - Для просмотра ссылки Войди или Зарегистрируйся.
 
Парси с использоватеним Snoopy, используя логин и пароль, тогда банить небудет. :)
 
Регистрируемся, запоминаем пароль и логин, пишем CURL сценарий инициализации $url страницы авторизации, смотрим в код формы, разбиваем на: "shop_user[login]", "shop_user[pass]", экшн форму - "auth_form", и кнопку с именем "войти на сайт". Передаём всё это CURL POST методом. При желании и в целях экономии ресурсо-запросов проводим манипуляции с сохранением кукии, чтобы не посылать лишний раз запросы в удвоенном размере.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху