База слов под NG Pro

Тема в разделе "NewsGrabberJC", создана пользователем AdeQuAte, 21 апр 2008.

Статус темы:
Закрыта.
  1. AdeQuAte

    AdeQuAte

    Регистр.:
    23 мар 2007
    Сообщения:
    353
    Симпатии:
    45
    Поделитесь базой слов под NG Pro.
    Нашёл тут на форуме, но там разделяются слова не теми символами..
     
  2. AdeQuAte

    AdeQuAte

    Регистр.:
    23 мар 2007
    Сообщения:
    353
    Симпатии:
    45
    А каким образом можно поправить базу которая выглядит следующим образом:
    слово|слово2|слово3
    а нужно сделать
    слово=слово2|слово3
     
  3. prokopa

    prokopa

    Регистр.:
    27 июн 2007
    Сообщения:
    402
    Симпатии:
    105
    к примеру регулярным выражением
    PHP:
    $file file('basa_slov.txt');
    $basa = @implode(""$file);
    echo 
    preg_replace('/(.*)\|(.*)\|(.*)$/im',"$1=$2|$3",$basa);
     
  4. AdeQuAte

    AdeQuAte

    Регистр.:
    23 мар 2007
    Сообщения:
    353
    Симпатии:
    45
    Нефурычит) Обратно в файл не пишет. И ещё один момент.. слов в каждой строке разное количество.
     
  5. prokopa

    prokopa

    Регистр.:
    27 июн 2007
    Сообщения:
    402
    Симпатии:
    105
    я тебе показал пример, дальше сам мог бы доделать..
    к примеру вывод в файл можешь сделать так
    PHP:
    $file file('basa_slov.txt'); 
    $basa = @implode(""$file);
    file_put_contents'basa_slov.txt'preg_replace('/(.*)\|(.*)\|(.*)$/im',"$1=$2|$3",$basa));
    а вот регулярное выражение доделывай под свой формат уже как-нибудь сам
     
  6. mehanic

    mehanic Писатель

    Регистр.:
    4 апр 2007
    Сообщения:
    1
    Симпатии:
    29
    если словарь именно такого вида, а не другой, просто меняй первое вхождение | на =. Рег будет такой:
    /([^\|]+)\|/s
    меняй на
    \\1=
    модификаторы сам ставь. ну полнотекст полюбому
     
  7. AdeQuAte

    AdeQuAte

    Регистр.:
    23 мар 2007
    Сообщения:
    353
    Симпатии:
    45
    Крут) Мне уже на дельфи сделали. Да вот проблемы это не решает. Если тупо взять словарь синонимов, то текст будет не читаемый. Нужно перечитывать и править весь словарь. За два часа переделал 9% словаря. Чувствую себя Ожиговым или Абрамовым :D
     
  8. AdeQuAte

    AdeQuAte

    Регистр.:
    23 мар 2007
    Сообщения:
    353
    Симпатии:
    45
    Вот словарик 5200 слов. Есть дубли. Почистил первые 9% словаря. слова разделяются знаком "="
    Юзайте ;)
     

    Вложения:

    • base.txt
      Размер файла:
      103,7 КБ
      Просмотров:
      47
  9. mehanic

    mehanic Писатель

    Регистр.:
    4 апр 2007
    Сообщения:
    1
    Симпатии:
    29
    А чего дубли не убрал? Порви по = , собери в массив и сделай array_unique.

    Ну и то, что по одному синониму для слова плохо. Если в тексте будет вхождение 10 раз хотя бы и всего один синоним. Вобщем не для человека текст будет.
     
  10. AdeQuAte

    AdeQuAte

    Регистр.:
    23 мар 2007
    Сообщения:
    353
    Симпатии:
    45
    Я бы сделал, да в PHP шарю на уровне "вырезать ненужный кусок"
     
Статус темы:
Закрыта.