[Ищу] Разодрать текст на фразы

Тема в разделе "SEO Скрипты", создана пользователем lift, 1 май 2012.

Статус темы:
Закрыта.
  1. lift

    lift Читатель

    Заблокирован
    Регистр.:
    1 июл 2007
    Сообщения:
    2.226
    Симпатии:
    1.377
    Чем разодрать текст на осмысленые фразы, его составляющие? Разобрать по словам - не проблема, текстпайп справляется "на ура", разобрать им на рандомные словосочетания - получается полный бред. Резать текст на предложения или на куски, ограниченые знаками препинания получается слишком проблемно, на выходе всеравно очень много текста получается.
    На входе дается файл/пачка файлов, прога как то их обрабатывает (например ищет частоповторяющиеся сочетания) и на выходе делает список из 1 фразы в 1 строку, где хотябы бОльшая часть должна быть осмысленой.
    Есть выход? Текста много, на самом деле много и руками не вариант вообще.
     
  2. E-body

    E-body

    Регистр.:
    6 сен 2007
    Сообщения:
    985
    Симпатии:
    331
    Прога должна уметь выдрать фразы между знаков тем самым получается список фраз
    от . до ,
    от - до ,
    от , до ,
    от , до .
    от ( до )
    от " до "
    от , до !
    от , до ?
    И с указание колличество слов в фразе от 2 до 4 и т.д.
    п.с. капитан очевидность, к прграммеру ибо текстпипе навряли сможет
     
    lift нравится это.
  3. porsche2

    porsche2

    Регистр.:
    18 ноя 2007
    Сообщения:
    667
    Симпатии:
    210
    А можно смысл сего действа узнать? В среднем человек в разговорной речи использует около 4000 слов, по профилю деятельности увеличиваем (карбюратор, автокад и мамка сдохла...)

    Может словодер сгодится, для как бы осмысленных фраз?

    Если с конкретным текстом работать, то можно попробовать запихать все в CMS и проштудировать с помощью Site Content Analyzer (не помню работает с папками или нет) , он покажет частотность, а потом частоповторяющиеся фразы отдать на растерзание словодеру и он из подсказок вытянет осмысленные и дополненные фразы.

    Или я что-то не так понимаю?

    Вот получим, причастный и деепричастный обороты, в которых смысла, без полного предложения, крайне мало.
     
    lift и E-body нравится это.
  4. lift

    lift Читатель

    Заблокирован
    Регистр.:
    1 июл 2007
    Сообщения:
    2.226
    Симпатии:
    1.377
    E-body разодрать по знакам препинания и рандомно порезать на 2-4 слова без осмысления текстпайп как 2 пальна может. Оникс в теме мне давно уже регулярну по разбивке выкладывал, работает как часы. Но этот вариант не сильно устраивает.

    porsche2 словодер на сколько я понимаю работает с выдачей из поисковиков а мне нужно не то, в каких сочетаниях встречается слово, а выдрать из конкретного массива слов сочетания осмысленые. Второй вариант работает только с анализом страницы. А на страницу я при всем желании впихну ну 10 мегов текста и если у меня его 10 гигов. Я смутно представляю себе как это можно будет обработать все и дело даже не в том, что 1000 раз повторить одну операцию а в том, что браузер после каждых 10-20 страниц просмотреных будет просто ложиться на 32 битной оси. Но суть необходимого мне примерно правильная, чем то похоже на создание симантического ядра по какому то большому объему текста.

    п.с. porsche2
    "Крайне мало" и "отсутствет полностью" это не синонимы и между ними разница в космос на самом деле. И у поставленой задачи на самом деле есть большой смысл, просто он не очевиден, особенно с точки зрения сео-форума т.к. не имеет к сео вообще никакого отношения. Я уже проделывал такие манипуляции с рандомно разбитыми словосочетаниями, получилось достаточно не плохо, но до идеала далеко. Если из текста выбрать сначала осмысленные фразы а остатки уже или разбить руками или рандомно нарезать кпд работы значительно увеличится. Задача к сео не имеет вообще никакого отношения, но так получилось, что в области сео очень много наработок по работе с текстами, по этому и спрашиваю тут.
     
  5. nothingnessget

    nothingnessget Постоялец

    Регистр.:
    9 апр 2012
    Сообщения:
    51
    Симпатии:
    22
    lift нравится это.
  6. lift

    lift Читатель

    Заблокирован
    Регистр.:
    1 июл 2007
    Сообщения:
    2.226
    Симпатии:
    1.377
    nothingnessget прикольный скрипт, но он только на предложения делит. Текстпайп это делает тоже и с бОльшим количеством настроеки хорошей скоростью.
     
  7. Rastypasty

    Rastypasty Постоялец

    Регистр.:
    8 авг 2011
    Сообщения:
    118
    Симпатии:
    12
    ТС, там главы или еще что-нибудь подобное есть?
    Может по абзацам порезать?
     
  8. Alex_1099660

    Alex_1099660 Создатель

    Регистр.:
    4 май 2012
    Сообщения:
    12
    Симпатии:
    1
    Уважаемый ТС! Тоже занимаюсь поиском осмысленных фраз из текста. Сразу скажу, что пишу на php. Текст я обрабатываю несколькими вложенными условиями. Сначала отрезаю первый блок текста (например символов 5000), затем делю на предложения, а потом проверяю каждые 2 (3,4) слова на окончания (последние 3-4 символа слова), сравнивая с базой окончаний. Таким образом, получаю достаточно осмысленные фразы из блока текста.
     
  9. lift

    lift Читатель

    Заблокирован
    Регистр.:
    1 июл 2007
    Сообщения:
    2.226
    Симпатии:
    1.377
    Первый пункт - не проблема. Поделить на предложения текст вообще не проблема.
    Как ты предлагаеш делить дальше, каков процесс проверки и как по этому принципу ты делиш на фразы конкретно?
    Накидай если не сложно хотябы 1-2к символов текста "до" и "после", очень интересно посмотреть.
     
  10. CAPAXA

    CAPAXA

    Регистр.:
    7 июн 2007
    Сообщения:
    920
    Симпатии:
    547
    Получите, с учетом морфологии, ключевые слова (за исключением стоп-слов), и получите слева/справа от ключей по 2-3 слова.
     
Статус темы:
Закрыта.