Помощь в простой выборке из файла

Тема в разделе "PHP", создана пользователем SergeiSP, 30 апр 2010.

Статус темы:
Закрыта.
Модераторы: latteo
  1. SergeiSP

    SergeiSP

    Регистр.:
    13 фев 2007
    Сообщения:
    375
    Симпатии:
    115
    Привет, подскажите, пожалуйста, как в скрипте реализовать отбор данных, т.е. вот пример файла

    Код:
     <tr class="keywordrow " id="keyrow_14630948">
    			   <td style="padding:0px; vertical-align: middle;"><input type="checkbox" name="keyword[14630948]" value="14630948"></td>
    			   <td>1</td>
    
    			   <td class="left" nowrap><a href='/showhistory.html?key_id=14630948' target="_blank" title="Нажмите, чтобы посмотреть историю позиций">артистка</a></td>
    			   <td >10</td>
    			   <td sorttable_customkey="notchecked" id="geo_14630948" onclick="check_geo(this)" title="Геозависимость не определена - нажмите, чтобы определить" class="td_reg"><img src="http://static.seopult.ru/themes/default/_img/geo/geo_nch.png" height="16" width="16"></td>
    			   <td class="left hidden" nowrap><a href='http://www.bfm.ru/topnews/culture/168691.html' target="_blank" title="http://www.bfm.ru/topnews/culture/168691.html">/topnews/culture/168691.html</a></td>
    			   <td class="right hidden" nowrap>N/A</td>
    			   <td class="right hidden" nowrap>N/A</td>
    
    			   <td class="hidden regime" nowrap>N/A</td>
    			   <td class="hidden regime" nowrap>N/A</td>
    			   <td class="hidden" nowrap>N/A</td>
    			   			   <td class="hidden" nowrap>N/A</td>
    			   <td class="hidden" nowrap>N/A</td>
    			   <td class="hidden" nowrap>N/A</td>
    
    			 </tr>
    			 <tr class="keywordrow  odd" id="keyrow_14630949">
    			   <td style="padding:0px; vertical-align: middle;"><input type="checkbox" name="keyword[14630949]" value="14630949"></td>
    			   <td>2</td>
    			   <td class="left" nowrap><a href='/showhistory.html?key_id=14630949' target="_blank" title="Нажмите, чтобы посмотреть историю позиций">народная артистка</a></td>
    			   <td >10</td>
    			   <td sorttable_customkey="notchecked" id="geo_14630949" onclick="check_geo(this)" title="Геозависимость не определена - нажмите, чтобы определить" class="td_reg"><img src="http://static.seopult.ru/themes/default/_img/geo/geo_nch.png" height="16" width="16"></td>
    
    			   <td class="left hidden" nowrap><a href='http://www.bfm.ru/topnews/culture/282893.html' target="_blank" title="http://www.bfm.ru/topnews/culture/282893.html">/topnews/culture/282893.html</a></td>
    			   <td class="right hidden" nowrap>N/A</td>
    			   <td class="right hidden" nowrap>N/A</td>
    			   <td class="hidden regime" nowrap>N/A</td>
    			   <td class="hidden regime" nowrap>N/A</td>
    			   <td class="hidden" nowrap>N/A</td>
    
    			   			   <td class="hidden" nowrap>N/A</td>
    			   <td class="hidden" nowrap>N/A</td>
    			   <td class="hidden" nowrap>N/A</td>
    			 </tr>
    
    Это с seopult код. Идея в том, чтобы выдрать со страницы все ревалентные страницы под каждый ключ. Т.е. нужно ,чтоб вот эту ссылку, например, bfm.ru/topnews/culture/168691.html скрипт выдерал и записывал в файл. Ссылку специально без http поставил, а то она автоматом как активная становится. Потом с новой строки под следующий ключ выбирал страницу и т.д., где страница не найдена ставил прочерк, например. Как реализовать, подскажите?
     
  2. Stern87

    Stern87 Создатель

    Регистр.:
    8 дек 2007
    Сообщения:
    15
    Симпатии:
    1
    Тут Вам очень помогут регулярные выражения.
     
  3. Igor123

    Igor123 Постоялец

    Регистр.:
    14 июн 2008
    Сообщения:
    116
    Симпатии:
    13
  4. Alix

    Alix

    Регистр.:
    27 янв 2008
    Сообщения:
    234
    Симпатии:
    84
    Саму ссылку(-лки) со страницы спарсить достаточно просто
    PHP:
    preg_match_all('/td class="left hidden" nowrap><a href=\'(.*?)\'/i'$page$matches);
    print_r($matches);
    соотв проверку на пустую строку сделать несложно. Однако я подозреваю возникнет желание вытаскивать еще кейворд. Или нет? В общем - нужна конкретизация, если регулярки приведенной выше недостаточно.
     
Статус темы:
Закрыта.