Человекопонятные словосочетания

LEXAlForpostl

Мой дом здесь!
Регистрация
21 Май 2008
Сообщения
766
Реакции
228
Здравствуйте.
Как со страницы "вытащить" человекопонятные словосочетания из 2, 3 слов? Или хотя бы, как из html'ной страницы получить словосочетания по 2-3 слова? Или как из нескольких предложений получить последовательности из 2,3 слов.
 
Гм... ещё бы человекопонятный вопрос не помешал :confused: Неплохо бы пример привести какой нить...
 
ну как
file_get_contents (html) -> в текст очищением от тэгов -> разделение на предложения (по разделителю точка) -> выкинуть нафиг слова из цифр или спецсимволов -> каждое предложение нарубить по 3слова (мерять по пробелам). Но изначально страница должна предполагаться русской и в определенной кодировке или стабильно английской. Иначе, даже если проверять диапазон в который попадают символы, это может оказаться примерно как иврит в cp1251 - все буквы русские и слова недлинные, только текст левый.
 
Язык текста - русский.
каждое предложение нарубить по 3слова (мерять по пробелам)
В этом то и вся проблема.
Если у нас есть слова: a b c d
То должно получиться:
a b
b c
c d
a b c
b c d

И ещё вопрос.
Каким способом в предложении оставить только слова?
 
Язык текста - русский.
В этом то и вся проблема.
Если у нас есть слова: a b c d
То должно получиться:
a b
b c
c d
a b c
b c d?
ну это уже комбинаторика - алгоритмов и примеров ну просто море везде.
И ещё вопрос.
Каким способом в предложении оставить только слова?
Выгрести цифры и спецзнаки, выбрать минимальную длину того что считается словом (к примеру 1 символ или 2 символа) и проверять на вхождение в ASCII диапазон русский (ну или уникоде там, тогда сначала приводить в какую нибудь опорную кодировку). Если уж совсем надо чисто - массив слов просто пробивать по русскому словарю или спеллчекером каким (долго но наверное единственный способ определить что "проиграть носки" это по-русски, а "поргиртьа кисно" это лажа)
 
Язык текста - русский.
В этом то и вся проблема.
Если у нас есть слова: a b c d
То должно получиться:
a b
b c
c d
a b c
b c d
И ещё вопрос.
Каким способом в предложении оставить только слова?

задача не ясна. Учитывать словоформы или нет? Если нужно их учитывать, то берешь тулзу от яндекса, делаешь хеш-таблицу. Затем по ней группируешь слова и подбираешь словоформы
 
Словоформы учитывать не надо. Достаточно только слова оставить в предложении. Буду признателен за пример кода.
 
Назад
Сверху