[Ищу] Разодрать текст на фразы

Статус
В этой теме нельзя размещать новые ответы.

lift

Читатель
Заблокирован
Регистрация
1 Июл 2007
Сообщения
2.222
Реакции
1.487
Чем разодрать текст на осмысленые фразы, его составляющие? Разобрать по словам - не проблема, текстпайп справляется "на ура", разобрать им на рандомные словосочетания - получается полный бред. Резать текст на предложения или на куски, ограниченые знаками препинания получается слишком проблемно, на выходе всеравно очень много текста получается.
На входе дается файл/пачка файлов, прога как то их обрабатывает (например ищет частоповторяющиеся сочетания) и на выходе делает список из 1 фразы в 1 строку, где хотябы бОльшая часть должна быть осмысленой.
Есть выход? Текста много, на самом деле много и руками не вариант вообще.
 
Прога должна уметь выдрать фразы между знаков тем самым получается список фраз
от . до ,
от - до ,
от , до ,
от , до .
от ( до )
от " до "
от , до !
от , до ?
И с указание колличество слов в фразе от 2 до 4 и т.д.
п.с. капитан очевидность, к прграммеру ибо текстпипе навряли сможет
 
  • Нравится
Реакции: lift
На входе дается файл/пачка файлов, прога как то их обрабатывает (например ищет частоповторяющиеся сочетания) и на выходе делает список из 1 фразы в 1 строку, где хотябы бОльшая часть должна быть осмысленой.
А можно смысл сего действа узнать? В среднем человек в разговорной речи использует около 4000 слов, по профилю деятельности увеличиваем (карбюратор, автокад и мамка сдохла...)

Может Для просмотра ссылки Войди или Зарегистрируйся сгодится, для как бы осмысленных фраз?

Если с конкретным текстом работать, то можно попробовать запихать все в CMS и проштудировать с помощью Site Content Analyzer (не помню работает с папками или нет) , он покажет частотность, а потом частоповторяющиеся фразы отдать на растерзание словодеру и он из подсказок вытянет осмысленные и дополненные фразы.

Или я что-то не так понимаю?

Прога должна уметь выдрать фразы между знаков тем самым получается список фраз
Вот получим, причастный и деепричастный обороты, в которых смысла, без полного предложения, крайне мало.
 
E-body разодрать по знакам препинания и рандомно порезать на 2-4 слова без осмысления текстпайп как 2 пальна может. Оникс в теме мне давно уже регулярну по разбивке выкладывал, работает как часы. Но этот вариант не сильно устраивает.

porsche2 словодер на сколько я понимаю работает с выдачей из поисковиков а мне нужно не то, в каких сочетаниях встречается слово, а выдрать из конкретного массива слов сочетания осмысленые. Второй вариант работает только с анализом страницы. А на страницу я при всем желании впихну ну 10 мегов текста и если у меня его 10 гигов. Я смутно представляю себе как это можно будет обработать все и дело даже не в том, что 1000 раз повторить одну операцию а в том, что браузер после каждых 10-20 страниц просмотреных будет просто ложиться на 32 битной оси. Но суть необходимого мне примерно правильная, чем то похоже на создание симантического ядра по какому то большому объему текста.

п.с. porsche2
Вот получим, причастный и деепричастный обороты, в которых смысла, без полного предложения, крайне мало.
"Крайне мало" и "отсутствет полностью" это не синонимы и между ними разница в космос на самом деле. И у поставленой задачи на самом деле есть большой смысл, просто он не очевиден, особенно с точки зрения сео-форума т.к. не имеет к сео вообще никакого отношения. Я уже проделывал такие манипуляции с рандомно разбитыми словосочетаниями, получилось достаточно не плохо, но до идеала далеко. Если из текста выбрать сначала осмысленные фразы а остатки уже или разбить руками или рандомно нарезать кпд работы значительно увеличится. Задача к сео не имеет вообще никакого отношения, но так получилось, что в области сео очень много наработок по работе с текстами, по этому и спрашиваю тут.
 
nothingnessget прикольный скрипт, но он только на предложения делит. Текстпайп это делает тоже и с бОльшим количеством настроеки хорошей скоростью.
 
ТС, там главы или еще что-нибудь подобное есть?
Может по абзацам порезать?
 
Уважаемый ТС! Тоже занимаюсь поиском осмысленных фраз из текста. Сразу скажу, что пишу на php. Текст я обрабатываю несколькими вложенными условиями. Сначала отрезаю первый блок текста (например символов 5000), затем делю на предложения, а потом проверяю каждые 2 (3,4) слова на окончания (последние 3-4 символа слова), сравнивая с базой окончаний. Таким образом, получаю достаточно осмысленные фразы из блока текста.
 
Уважаемый ТС! Тоже занимаюсь поиском осмысленных фраз из текста. Сразу скажу, что пишу на php. Текст я обрабатываю несколькими вложенными условиями. Сначала отрезаю первый блок текста (например символов 5000), затем делю на предложения, а потом проверяю каждые 2 (3,4) слова на окончания (последние 3-4 символа слова), сравнивая с базой окончаний. Таким образом, получаю достаточно осмысленные фразы из блока текста.
Первый пункт - не проблема. Поделить на предложения текст вообще не проблема.
Как ты предлагаеш делить дальше, каков процесс проверки и как по этому принципу ты делиш на фразы конкретно?
Накидай если не сложно хотябы 1-2к символов текста "до" и "после", очень интересно посмотреть.
 
Получите, с учетом морфологии, ключевые слова (за исключением стоп-слов), и получите слева/справа от ключей по 2-3 слова.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху