Помощь в простой выборке из файла

Статус
В этой теме нельзя размещать новые ответы.

SergeiSP

Постоялец
Регистрация
13 Фев 2007
Сообщения
375
Реакции
120
Привет, подскажите, пожалуйста, как в скрипте реализовать отбор данных, т.е. вот пример файла

Код:
 <tr class="keywordrow " id="keyrow_14630948">
			   <td style="padding:0px; vertical-align: middle;"><input type="checkbox" name="keyword[14630948]" value="14630948"></td>
			   <td>1</td>

			   <td class="left" nowrap><a href='/showhistory.html?key_id=14630948' target="_blank" title="Нажмите, чтобы посмотреть историю позиций">артистка</a></td>
			   <td >10</td>
			   <td sorttable_customkey="notchecked" id="geo_14630948" onclick="check_geo(this)" title="Геозависимость не определена - нажмите, чтобы определить" class="td_reg"><img src="http://static.seopult.ru/themes/default/_img/geo/geo_nch.png" height="16" width="16"></td>
			   <td class="left hidden" nowrap><a href='http://www.bfm.ru/topnews/culture/168691.html' target="_blank" title="http://www.bfm.ru/topnews/culture/168691.html">/topnews/culture/168691.html</a></td>
			   <td class="right hidden" nowrap>N/A</td>
			   <td class="right hidden" nowrap>N/A</td>

			   <td class="hidden regime" nowrap>N/A</td>
			   <td class="hidden regime" nowrap>N/A</td>
			   <td class="hidden" nowrap>N/A</td>
			   			   <td class="hidden" nowrap>N/A</td>
			   <td class="hidden" nowrap>N/A</td>
			   <td class="hidden" nowrap>N/A</td>

			 </tr>
			 <tr class="keywordrow  odd" id="keyrow_14630949">
			   <td style="padding:0px; vertical-align: middle;"><input type="checkbox" name="keyword[14630949]" value="14630949"></td>
			   <td>2</td>
			   <td class="left" nowrap><a href='/showhistory.html?key_id=14630949' target="_blank" title="Нажмите, чтобы посмотреть историю позиций">народная артистка</a></td>
			   <td >10</td>
			   <td sorttable_customkey="notchecked" id="geo_14630949" onclick="check_geo(this)" title="Геозависимость не определена - нажмите, чтобы определить" class="td_reg"><img src="http://static.seopult.ru/themes/default/_img/geo/geo_nch.png" height="16" width="16"></td>

			   <td class="left hidden" nowrap><a href='http://www.bfm.ru/topnews/culture/282893.html' target="_blank" title="http://www.bfm.ru/topnews/culture/282893.html">/topnews/culture/282893.html</a></td>
			   <td class="right hidden" nowrap>N/A</td>
			   <td class="right hidden" nowrap>N/A</td>
			   <td class="hidden regime" nowrap>N/A</td>
			   <td class="hidden regime" nowrap>N/A</td>
			   <td class="hidden" nowrap>N/A</td>

			   			   <td class="hidden" nowrap>N/A</td>
			   <td class="hidden" nowrap>N/A</td>
			   <td class="hidden" nowrap>N/A</td>
			 </tr>

Это с seopult код. Идея в том, чтобы выдрать со страницы все ревалентные страницы под каждый ключ. Т.е. нужно ,чтоб вот эту ссылку, например, bfm.ru/topnews/culture/168691.html скрипт выдерал и записывал в файл. Ссылку специально без http поставил, а то она автоматом как активная становится. Потом с новой строки под следующий ключ выбирал страницу и т.д., где страница не найдена ставил прочерк, например. Как реализовать, подскажите?
 
Тут Вам очень помогут регулярные выражения.
 
Саму ссылку(-лки) со страницы спарсить достаточно просто
PHP:
preg_match_all('/td class="left hidden" nowrap><a href=\'(.*?)\'/i', $page, $matches);
print_r($matches);
соотв проверку на пустую строку сделать несложно. Однако я подозреваю возникнет желание вытаскивать еще кейворд. Или нет? В общем - нужна конкретизация, если регулярки приведенной выше недостаточно.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху