Спарсить информацию со странички

Статус
В этой теме нельзя размещать новые ответы.

pronax

Постоялец
Регистрация
20 Сен 2008
Сообщения
147
Реакции
10
Всем привет! кто подскажет метод, с помощью которого можно спарсить страничку: urlvoid.com
для пробы: Для просмотра ссылки Войди или Зарегистрируйся
Курлом не получается
file_get_html тоже... в любом случае 403 выскакивает ...может есть ещё способ?
 
Curl-ом получается, ага.
PHP:
<?php 
$ch = curl_init();
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
curl_setopt($ch, CURLOPT_COOKIESESSION, TRUE);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_COOKIEFILE, "cookiefile");
curl_setopt($ch, CURLOPT_COOKIEJAR, "cookiefile");
curl_setopt($ch, CURLOPT_COOKIE, session_name() . '=' . session_id());
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt($ch, CURLOPT_USERAGENT, 'User-Agent: Mozilla/5.0 (X11; U; Linux i686; ru; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8');
curl_setopt($ch, CURLOPT_URL, 'http://www.urlvoid.com/scan/mail.ru');
$res = curl_exec($ch);
echo $res;
?>
Как с регулярками? Результат сам распарсишь? ;)
 
Скорее всего твой ip выхватил ban. Попробуй с другого.
 
Curl-ом получается, ага.
Как с регулярками? Результат сам распарсишь? ;)
Благодарю за помощь, видно руки всё же кривые)
каким образом записать регулярку, вот пример как я написал:
PHP:
preg_replace('/(Website)/',"",$website[0][$q]);
Работает отлично, а вот как добавить вид:
PHP:
<tr class="row0"><td>Website</td> <td>
выдаёт: Unknown modifier 't'
 
Слэш в </td> нужно экранировать. Вот так:
PHP:
preg_replace('/<tr class="row0"><td>Website<\/td><td>/',"",$website[0][$q]);
 
  • Заблокирован
  • #6
preg_replace('/<tr class="row0"><td>Website<\/td><td>/',"",$website[0][$q]);
кавычки тоже
PHP:
preg_replace('/<tr class=\"row0\"><td>Website<\/td><td>/',"",$website[0][$q]);
 
кавычки тоже
PHP:
preg_replace('/<tr class=\"row0\"><td>Website<\/td><td>/',"",$website[0][$q]);
Кавычки не относятся к управляющим символам регулярных выражений, поэтому экранировать их не нужно.
 
кавычки тоже
PHP:
preg_replace('/<tr class=\"row0\"><td>Website<\/td><td>/',"",$website[0][$q]);

Кавычки нужно экранировать, когда они совпадают с начальным и кончеными кавычками выражения, например так:

PHP:
preg_replace("/<tr class=\"row0\"><td>Website<\/td><td>/","",$website[0][$q]);

Если же кавычки различны (' и "), то экранировать их не нужно.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху