Очистить текст англ.

Статус
В этой теме нельзя размещать новые ответы.

Zahar

Постоялец
Регистрация
21 Мар 2007
Сообщения
245
Реакции
105
Вот стоит задачка, почистить текст от всякого мусора, т.е. есть текст и нужно с него взять только правильные предложения, чтоб не местили в себе всякого рода символы не читабельные.
Долблюсь второй день что то никак максимально очистить не получаеться. Помогите пожалуста.
 
не совсем понятно что надо. нечитабельные символы — это какие?
Но можно регуляркой проверять текст на наличие "нечитабельных символов", и если они присутствуют — отсылать пальзователя в лес (ну или убрать символы).
 
Не читабельные, я чуть не так выразился, я имею ввиду разные квадратики попадаються и т.д. Вот от этого надо очистить, можно даже я думаю такие предложения просто выкидывать.
 
Вот тебе программка instext, удалит или заменит любые символы в файле:D
 
Спасибо конечно, но как-то в скрипты подключить будет проблематично, я ищу какие может готовые класы или может скрипт.
 
Значит, скрипт подключить проблематично, а классы - нормально? :)

Попробуй оставлять только символы английского алфавита, 0-9, и знаки. [a-Z0-9!,\.] - и так далее.
 
класы и в пхп есть кстате, регулярками все ок но выкидываються и нормальные предложения в которых меститься скажем символы []:{} и т.д. Тут проблема состоит в том чтоб определить что предложение имеет некую стандартную модель вот эту модель надо както сформулировать.
 
сделай проверку являются ли символы клавиатурными (тоисть они есть на клавиатуре). все другие - удалить. Долго, неинтересно, но выходов иных не вижу :(
 
Короче пока только так делаю выборку:
PHP:
preg_match_all("/[A-Z][A-Za-z0-9(),:' ]+[a-z0-9][\.|\?|\!|\;]/is",$text,$matches);
может кто что добавит....
 
"/[a-Zа-Яе0-9\.\*\\/\[\]!@#$%\^&\(\)\-\+]*/i"
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху