Замена текста (исключая между тегами)

4erepaha13 · 7 Дек 2010

В большом массиве текста необходимо произвести массовые замены.
Для этой цели похоже что подойдет пример с пхп.нет:

PHP:

$patterns = array();
$patterns[0] = '/quick/';
$patterns[1] = '/brown/';
$patterns[2] = '/fox/';
$replacements = array();
$replacements[2] = 'bear';
$replacements[1] = 'black';
$replacements[0] = 'slow';
echo preg_replace($patterns, $replacements, $string);

Но есть заковыка - нужно оставлять неизменным текст внутри некоторых тегов
<a.*?a> (не править анкоры и титле)
<img.*?> (не править альты)
<h.*?\/h.> (не править заголовки)
и для этого надо "Для просмотра ссылки Войди или Зарегистрируйся".
Подскажите- как это все вместе увязать, потому что теорию на практику корректного синтаксиса пока подобрать не удалось.

B0nuse · 8 Дек 2010

Думаю можно использовать отрицаниие в регулярке
(?!слово)

Yoorok · 8 Дек 2010

Добрый день. Подскажите пожалуйста.
Есть регулярка eregi_replace('(((f|ht){1}tp://)[-a-zA-Z0-9@:%_\+.~#?&,()//=]+)', 'Для просмотра ссылки Войди или Зарегистрируйся', $text)

Как мне ее модифицировать так, чтобы под шаблон попадали только ссылки, которые либо начинаются с новой строки, либо содержат перед собой пробел

Добавлено через 51 секунду

B0nuse написал(а):
Думаю можно использовать отрицаниие в регулярке
(?!слово)

я как понимаю мне (?!слово) тоже подходит... а как описать (?!пробел или новая строка)

pitkina · 8 Дек 2010

подмаски и отрицания в паттерне усложнят задачу, обычно для этого достаточно просто разделить html на элементы и через foreach произвести замену с условиями

PHP:

// $html

$find_replace = array( 'find1'=>'repl1', 'find2'=>'repl2' ); // массив поиск/замена

$parts = preg_split('/(<(?:\?[^?]+\?>|[A-Za-z]+(?:[^">]+|"[^"]*")*|!(?:\[CDATA\[(?:[^\]]+|](?:[^\]]|][^>]))*]]|--(?:[^-]+|-(?!->))*--))>)/', $html, -1, PREG_SPLIT_NO_EMPTY | PREG_SPLIT_DELIM_CAPTURE);

foreach ($parts as $part) {
   if(!preg_match('/^<(a|img|h)/i',$part)) $part = strtr($part,$find_replace); // условие пропуска
   $res_html .= $part;
}

// $res_html;

2.

Yoorok написал(а):
ссылки, которые либо начинаются с новой строки, либо содержат перед собой пробел

например так:

PHP:

$text = preg_replace('#(?:^|\s)((f|ht)tp://)\S+#im','\\1',$text);

4erepaha13 · 9 Дек 2010

pitkina написал(а):
подмаски и отрицания в паттерне усложнят задачу, обычно для этого достаточно просто разделить html на элементы и через foreach произвести замену с условиями

Эта регулярка сломала мозг и помоему там есть чтото сверх того, что мне нужно

Решил написать свою,

PHP:

$parts = preg_split('/(<img[^>]*?>|<a\s.*?>.*?a>|<h\d.*?h\d>)/i', $html, -1, PREG_SPLIT_NO_EMPTY | PREG_SPLIT_DELIM_CAPTURE);

навскидку работает.

Liver · 10 Дек 2010

Я делал подобную задачу так - заменял все тэги на вставки типа ###TAG1### и собирал эти тэги в массив. Получал сплошной текст. Изменял его регуляркой без всяких там опережений и потом заменял тэги обратно. Для скорости можно использовать модификатор e.

4erepaha13 · 14 Дек 2010

Метод Pitkina оказался таки самым простым и эффективным, а в результате обкатки регулярка пришла к такому конечному виду

PHP:

<.*?>|<a\s.*?>.*?a>|<h\d.*?h\d>

Т.е. не править в любых одиночных тегах, не править в ссылках и в заголовках.
Самое интересное, что именно к такому виду тоже пришел автор плагина

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Замена текста (исключая между тегами)

4erepaha13

Полезный

B0nuse

Постоялец

Yoorok

Создатель

pitkina

Постоялец

4erepaha13

Полезный

Liver

Гуру форума

4erepaha13

Полезный