Очистить текст англ.

Тема в разделе "PHP", создана пользователем Zahar, 13 май 2009.

Статус темы:
Закрыта.
Модераторы: latteo
  1. Zahar

    Zahar

    Регистр.:
    21 мар 2007
    Сообщения:
    248
    Симпатии:
    94
    Вот стоит задачка, почистить текст от всякого мусора, т.е. есть текст и нужно с него взять только правильные предложения, чтоб не местили в себе всякого рода символы не читабельные.
    Долблюсь второй день что то никак максимально очистить не получаеться. Помогите пожалуста.
     
  2. Drak0n4ik

    Drak0n4ik Создатель

    Регистр.:
    8 май 2009
    Сообщения:
    25
    Симпатии:
    1
    не совсем понятно что надо. нечитабельные символы — это какие?
    Но можно регуляркой проверять текст на наличие "нечитабельных символов", и если они присутствуют — отсылать пальзователя в лес (ну или убрать символы).
     
  3. Zahar

    Zahar

    Регистр.:
    21 мар 2007
    Сообщения:
    248
    Симпатии:
    94
    Не читабельные, я чуть не так выразился, я имею ввиду разные квадратики попадаються и т.д. Вот от этого надо очистить, можно даже я думаю такие предложения просто выкидывать.
     
  4. smithws

    smithws

    Регистр.:
    19 июн 2008
    Сообщения:
    481
    Симпатии:
    153
  5. Zahar

    Zahar

    Регистр.:
    21 мар 2007
    Сообщения:
    248
    Симпатии:
    94
    Спасибо конечно, но как-то в скрипты подключить будет проблематично, я ищу какие может готовые класы или может скрипт.
     
  6. t0os

    t0os

    Регистр.:
    21 окт 2007
    Сообщения:
    284
    Симпатии:
    36
    Значит, скрипт подключить проблематично, а классы - нормально? :)

    Попробуй оставлять только символы английского алфавита, 0-9, и знаки. [a-Z0-9!,\.] - и так далее.
     
  7. Zahar

    Zahar

    Регистр.:
    21 мар 2007
    Сообщения:
    248
    Симпатии:
    94
    класы и в пхп есть кстате, регулярками все ок но выкидываються и нормальные предложения в которых меститься скажем символы []:{} и т.д. Тут проблема состоит в том чтоб определить что предложение имеет некую стандартную модель вот эту модель надо както сформулировать.
     
  8. Drak0n4ik

    Drak0n4ik Создатель

    Регистр.:
    8 май 2009
    Сообщения:
    25
    Симпатии:
    1
    сделай проверку являются ли символы клавиатурными (тоисть они есть на клавиатуре). все другие - удалить. Долго, неинтересно, но выходов иных не вижу :(
     
  9. Zahar

    Zahar

    Регистр.:
    21 мар 2007
    Сообщения:
    248
    Симпатии:
    94
    Короче пока только так делаю выборку:
    PHP:
    preg_match_all("/[A-Z][A-Za-z0-9(),:' ]+[a-z0-9][\.|\?|\!|\;]/is",$text,$matches);
    может кто что добавит....
     
  10. Drak0n4ik

    Drak0n4ik Создатель

    Регистр.:
    8 май 2009
    Сообщения:
    25
    Симпатии:
    1
    "/[a-Zа-Яе0-9\.\*\\/\[\]!@#$%\^&\(\)\-\+]*/i"
     
Статус темы:
Закрыта.