Парсинг страницы

Stripe · 16 Сен 2009

Есть кусок кода:

HTML:

<tr align=left ><td><a href='http://111'>крукркур</a><td>цфукфк<td>птпатn<td>фыафца<td>ваыи<td>укну<tr align=left class="ch"><td><a href='http://222'>укнркр</a><td>нонеоне<td>чьнн<td>аетеат <td>online<td>rock<tr align=left ><td><a href='http://333'>аттпта</a><td>тнртн<td>кненкен<td>сноно<td>апраер<td>ьорьро<tr align=left class="ch"><td><a href='http://444'>екнкен</a><td>ролорл<td>чсячся<td>фывфывфыв<td>фвфывфцв<td>вапвапвап</table>

Пытаюсь распарсить его таким образом:

PHP:

$pagecontent = ereg_replace("<tr align=left >","",$pagecontent);
$pagecontent = ereg_replace("<tr align=left class=\"ch\">","",$pagecontent);
$pagecontent = ereg_replace("<a href='http://","",$pagecontent);
$pagecontent = ereg_replace("</a>","",$pagecontent);
$pagecontent = ereg_replace("'>",":",$pagecontent);
$pagecontent = ereg_replace("</table>","",$pagecontent);
$pagecontent = ereg_replace("<td>",":",$pagecontent); 
$html = explode("\n",$pagecontent);
for($i=0;$i<=sizeOf($html);$i++)
    {
    if(strstr($html[$i],":"))
        {
        $tmp = explode(":",$tmp);
        $chto[] = array(
            "aaa" => $tmp[0],
			"bbb" => $tmp[1],
			"eee" => $tmp[2],
			"www" => $tmp[3]
            );
		}
	}
print "<pre>";
print_r($chto);
print "</pre>\n";

В ответ получаю пустой массив. В чем может быть проблема?

pori · 16 Сен 2009

В этой строчке:

PHP:

 $tmp = explode(":",$tmp);

Переменная $tmp - пустая. Нужно:

PHP:

 $tmp = explode(":",$html[$i]);

Stripe · 16 Сен 2009

мммм... запись исходного кода HTML которую я привел, она в одну строку идет? Как разбить ее на 4? Каждая новая строка начинается с

<tr

.

pori · 16 Сен 2009

Stripe написал(а):
мммм... запись исходного кода HTML которую я привел, она в одну строку идет? Как разбить ее на 4? Каждая новая строка начинается с .

добавь строку

PHP:

$pagecontent = ereg_replace("<tr","\r\n<tr",$pagecontent);

Stripe · 16 Сен 2009

БАЛЬШОЕ ЧЕЛОВЕЧЕСКОЕ СПАСИБО!
Все работает, код везде работал в парсерах, а тут перестал вдруг, я думал с ума схожу.

Sanuch · 16 Сен 2009

Странный парсинг.
Почему используеться ereg, когда тоже самое делается обычным str_replace. Если уж использовать регулярные, то примерно в таком контексте

PHP:

preg_match_all('/<tr[^>]+align=["|\']?left["|\']?[^>]*>(.*)<\/tr>/Usi', $pagecontent, $outcontent);

и уже после разбирать строки. имхо

Happyuser · 16 Сен 2009

Тулзи для регулярних виразів

Може простому смертному важко будувати такі довгі регулярні вирази, для цього є купа тулзів. Наприклад в онлайні Для просмотра ссылки Войди или Зарегистрируйся
або

Для просмотра ссылки Войди или Зарегистрируйся

Stripe · 16 Сен 2009

Sanuch, парсим как умеем

)) С регулярками я плохо знаком.

Sanuch · 16 Сен 2009

Stripe написал(а):
Sanuch, парсим как умеем )) С регулярками я плохо знаком.

надо учить регулярные выражения, иной раз они выручают

Парсинг страницы

Stripe

Участник

pori

Постоялец

Stripe

Участник

pori

Постоялец

Stripe

Участник

Sanuch

Гуру форума

Happyuser

Создатель

Stripe

Участник

Sanuch

Гуру форума