Парсер предложений из текста

Croner · 10 Мар 2008

Нужно из русских текстов выдирать предложения. Помогите с регуляркой какой нибуть.
Тексты в текстовых файлах пока что, но могуть быть и в html.

Karlasan · 14 Мар 2008

а если без регулярок?

PHP:

$text="Нужно из русских текстов выдирать предложения. Помогите с регуляркой какой нибуть.
Тексты в текстовых файлах пока что, но могуть быть и в html.";
$predl=explode(".",$text);
print_r($predl);

выдаст:

HTML:

Array
(
    [0] => Нужно из русских текстов выдирать предложения
    [1] =>  Помогите с регуляркой какой нибуть
    [2] => 
Тексты в текстовых файлах пока что, но могуть быть и в html
    [3] => 
)

недостатков конечно куча - например если в тексте встретится "Иванов А.Б." - скрипт примет это за 3 предложения

с другой стороны всё и не предусмотришь - нюансов куча будет.

Croner · 21 Мар 2008

Это простейший вариант.
Проблема вылазит с ткого рода текстами

Код:

 - К "Авроре". - И поясним для непонятливых, чтоб не  переспросили  насчет
кафе, магазина, ресторана или гостиницы: - К крейсеру.  -  И  уж  для  самых
туповатых уточним: - На Петроградскую набережную. К Сампсониевскому мостику.

А также всякие фамилии, сокращения и т.д. :confused:

Juri · 30 Мар 2008

зато есть повод усовершенствовать свои знания пхп

puika · 30 Мар 2008

Для просмотра ссылки Войди или Зарегистрируйся
тут глянь

venetu · 22 Май 2008

Я тоже в свое время парился над подобной задачей, более-менее приемлемых результатов удалось добиться таким алгоритмом:

1) удаляем теги (через strip_tags())
2) в полученном тексте ищем фрагменты, которые
- начинаются на заглавную букву
- заканчиваются на точку
- содержат от 3 до 32 слов.

Кол-во слов определять через split() по пробелу и потом count() получившегося массивчика. Простого подсчета пробельных символов здесь недостаточно.

General Fizz · 22 Май 2008

venetu написал(а):
1) удаляем теги (через strip_tags())
2) в полученном тексте ищем фрагменты, которые
- начинаются на заглавную букву
- заканчиваются на точку
- содержат от 3 до 32 слов...

Я разбивал предложения по точке/многоточию/вопр.знаку/воскл.знаку и пробелу за ними. Перед этим удалил все отдельные тире, кавычки и прочий мусор.

Парсер предложений из текста

Croner

Постоялец

Karlasan

Мой дом здесь!

Croner

Постоялец

Juri

Мой дом здесь!

puika

Мой дом здесь!

venetu

Мой дом здесь!

General Fizz

Боевой Генерал :)