Получить все ссылки со страницы

Stripe · 22 Ноя 2009

Как должна выглядеть регулярка, получающая все ссылки со страницы?

Stripe · 22 Ноя 2009

Решение:

PHP:

# Пример в PHP

$text = '<a href="http://site1.ru">Site 1</a> Any text <a href="http://site2.ru">Site 2</a>';

$out = array();
preg_match_all('|<a.* href=(.*)>(.*)</a>|U', $text, $out);

# $out будет содержать массив данных

Для просмотра ссылки Войди или Зарегистрируйся

Matinier · 22 Ноя 2009

Есть небольшой нюанс в указанной регулярке: она вырежет не только ссылки типа Для просмотра ссылки Войди или Зарегистрируйся, но и "якоря", например такие:

HTML:

<a name="anchor">Point</a>
Any text
Any text
Any text
<a href="#anchor">Point</a>

а подобные ссылки зачастую не нужны.
Поэтому я бы модифицировал вышеописанную регулярку:

PHP:

preg_match_all('|<a.* href=(.http.*)>(.*)</a>|U', $text, $out); 

# $out будет содержать массив данных

chang · 24 Ноя 2009

а если таким:

Код:

@"(ht|f)tp(s?)\:\/\/[0-9a-zA-Z]([-.\w]*[0-9a-zA-Z])*(:(0-9)*)*(\/?)([a-zA-Z0-9\-\.\?\,\'\/\\\+&amp;%\$#_]*)?"

exGumator · 29 Ноя 2009

жадность регулярок

я полдня протрахался у меня скрипт хавал парашу пока не заменил

.* на [^>]* то есть, что не дает выйти за пределы тега,
начал юзать прогу которую поставил год назад

RegexBuddy3

sekaiyume · 3 Дек 2009

Вы можете использовать это:

PHP:

preg_match_all('@<a(?:.*)href=[\'"]([^"\']*)[\'"](?:[^>])>@i', $text, $matches);

и их использование массив $ Matches

rakita13 · 4 Дек 2009

satih написал(а):
RegexBuddy первое что нужно запускать если с регулярками имеешь дело..

Пара прямых рук заменит подобный софт. :-]

PHP:

preg_match_all("/<a.*href=['\"]([^\"']+).*>([</a]*)/isU", $text, $matches);

так уже было?

fangete · 5 Дек 2009

([</a]*) - заэкранировать "/" нужно

Matinier · 5 Дек 2009

fangete написал(а):
([</a]*) - заэкранировать "/" нужно

Ничего экранировать не надо ни в коем случае! То, что стоит в квадратных скобках - группа символов, их экранировать не надо.
То есть там перечислены символы, которые могут встретиться 0 и более раз, но никакие другие символы, кроме перечисленных в [] учитываться не будут.
В [] можно писать любые символы и они будут рассматриваться регуляркой без всякого экранирования.

N()fix · 9 Дек 2009

Matinier написал(а):
В [] можно писать любые символы …

Ну не совсем любые, надо экранировать «]», «-» и что касается PHP, надо экранировать ограничивающий символ (даже в []).
И конкретно в выражении:

rakita13 написал(а):
PHP:

preg_match_all("/<a.*href=['\"]([^\"']+).*>([</a]*)/isU", $text, $matches);

надо писать [<\/a]
либо изменить ограничитель, например на «%»:

PHP:

'%<a.*href=[\'"]([^"\']+).*>([</a]*)%isU'

Получить все ссылки со страницы

Stripe

Участник

Stripe

Участник

Matinier

Постоялец

chang

Постоялец

exGumator

Создатель

sekaiyume

Создатель

rakita13

Прохожие

fangete

Постоялец

Matinier

Постоялец

N()fix

Создатель