Помогите спарсить новости

Тема в разделе "Регулярные выражения", создана пользователем LPKIR, 26 авг 2009.

Статус темы:
Закрыта.
Модераторы: xpert13
  1. LPKIR

    LPKIR Постоялец

    Регистр.:
    8 апр 2008
    Сообщения:
    62
    Симпатии:
    8
    Нужно выкрасть текст новостей с сайта TimeZero.ru, убирая все html теги и заменяя кавычки на \" только в тексте новости
     
  2. nuke333

    nuke333 Создатель

    Регистр.:
    8 дек 2008
    Сообщения:
    47
    Симпатии:
    12
    для начала
    PHP:
    if (preg_match('/<h1>Новости<\/h1>[^<]*<!--blockstart-->(?P<news_block>.*?)<!--blockend-->/si'$news$result)) {
        
    result $result['news_block'];
    } else {
        
    result "";
    }
    далее

    PHP:
    preg_match_all('/<div class="tz_top_rep_content_block_main">(?P<news_title>[^<]*)<\/div>.*?<div class="date_block">.*?<span>(?P<news_datetime>[^<]*)<\/span>\r\n.*?<div class="tz_content_block_main">(?P<news_text>.*?)<\/div>/si'$result$resultPREG_SET_ORDER);
    print(
    '<pre>');
    foreach(
    $result as $i => $part){
      
    print_r($result[$i]);
    }
    выдрать html тэги и заменить кавычки на \" думаю сам сможешь ;) (hint: strip_tags и str_replace помогут)
     
    LPKIR нравится это.
Статус темы:
Закрыта.