Парсинг сайтов

Тема в разделе "PHP", создана пользователем Innocent77, 27 май 2010.

Статус темы:
Закрыта.
Модераторы: latteo
  1. Innocent77

    Innocent77 Создатель

    Регистр.:
    20 дек 2009
    Сообщения:
    23
    Симпатии:
    6
    Блин начал разбираться с php и чот застрял короче не в какую не хочет выводить данные:
    PHP:
    <?
    $data file_get_contents ("http://with-music.ru/"); //к примеру брал
    $nax '/<div id="content">(.*)<div class="navigation">/s';
    $data preg_match_all($nax$data$pockets);
    $pockets $pocets[1];
    print_r($pockets);
    ?>
    по идее должен был бы вывести массив и значения, за место этого чистый экран выводит.
    зато если просто написать echo $pockets - он мне пишет еденичку, что соотвествует если не ошибаюсь, совпадения найдены.
    побывал на денвере и на внешнем.
    вообщем прошу помоши, пока буду спрашивать,после думаю написать мини фак, что да как делать.
    парсинг RSS не знаю, и вообще в RSS может отдаваться не все статья.
     
  2. dellun

    dellun Постоялец

    Регистр.:
    8 дек 2008
    Сообщения:
    101
    Симпатии:
    31
    Есть интересный сайт о парсинге. Почитай http://parsing-and-i.blogspot.com/
     
  3. diavolic

    diavolic

    Регистр.:
    17 мар 2010
    Сообщения:
    522
    Симпатии:
    102
    $pockets после preg_match_all это двумерный массив. если что
     
  4. xymmep

    xymmep Постоялец

    Регистр.:
    7 дек 2007
    Сообщения:
    63
    Симпатии:
    22
    Банальная опечатка:)
    Код:
    <? 
    $data = file_get_contents ("http://with-music.ru/"); //к примеру брал 
    $nax = '/<div id="content">(.*)<div class="navigation">/s'; 
    $data = preg_match_all($nax, $data, $pockets); 
    $pockets = $poc[I][U][B]k[/B][/U][/I]ets[1]; 
    print_r($pockets); 
    ?>
     
    Innocent77 нравится это.
  5. Innocent77

    Innocent77 Создатель

    Регистр.:
    20 дек 2009
    Сообщения:
    23
    Симпатии:
    6
    так немного набираюсь опыта поэтому банальный file_get_contents уже не катит.
    Смотрю в сторону cURL но чот не могу найти подробный мануал всех функций на одной странице. Может кто книгу по курлу посоветует?

    также, как реализовать следующие:
    1)заходим на сайт, парсим, разделяем зоголовок статьи и саму статью
    2)Отправляем зоголловок в админку и текст статью, далее добаляем рандомно дату, генерируем дискриптион, и ключ вставлем такой же как у заголовка, отпраляем данные на сайт (статья появляется)
    3)через 6-10 секунд обновляем страницу которую парсим (на ней уже другой контент). Парсим также и отпраляем в админку.
    4) Повторяем эти шаги ,пока не надоест.
     
  6. xymmep

    xymmep Постоялец

    Регистр.:
    7 дек 2007
    Сообщения:
    63
    Симпатии:
    22
    http://www.php.ru/manual/ref.curl.html
     
  7. Innocent77

    Innocent77 Создатель

    Регистр.:
    20 дек 2009
    Сообщения:
    23
    Симпатии:
    6
    такс допусти изучил.
    но как сделать разбиение контента и его последующей отправки в бд?
    а после узнать, что отправка произошла успешно и обновить парсенную страницу и начать занова???
     
  8. xymmep

    xymmep Постоялец

    Регистр.:
    7 дек 2007
    Сообщения:
    63
    Симпатии:
    22
    Разбивать регулярными выражениями. Остальное это азы, тут ничего лучше учебника не придумать;)
     
Статус темы:
Закрыта.