Помогите подобрать фильтры для TextPipePro для очистки текста

Тема в разделе "Вопросы новичков", создана пользователем alex-bot, 12 май 2008.

Статус темы:
Закрыта.
  1. alex-bot

    alex-bot Nulled-Man

    Регистр.:
    4 май 2007
    Сообщения:
    497
    Симпатии:
    144
    Народ может кто подсказать какие фильтры нужно использовать чтобы максимально очистить текст от всякой шняги, символов из разных кодировок, ну и тд и тп... вот копаюсь второй день, но толку... мало
      
    вђ”
    hг¶gl;
    don’t
    't
    Вот эт самое безобидное, но было и похуже текст в сплошных закорючках...
    Ну т.е. задача:
    1. удалить все символы кроме букв цыфр и знаков препинания
    2. Это посложнее возможно ли удалить табуляцию, если на конце строки не стоит точка? Т.е. обеъденить текст в предложения...

    PS. Это уже не по Текст пайпу но интересует, а можно ли например тем же вордом проверить текст на орфографические ошибки, и все слова, которых нет в английском языке либо исправить либо удалить??? - Или это из области фантастики???

    Заранее спасибо за любую помощь и советы как этого добиться... Думаю не только мне это будет полезно...

    А может у кого то уже есть собранный фильтр для Текст-пайпа и может поделиться...
     
  2. fs84

    fs84 Читатель

    Заблокирован
    Регистр.:
    19 дек 2006
    Сообщения:
    150
    Симпатии:
    43
    Если инфа не сугубо личная, выложи куски текста, или весь файл, тогда смогу помочь...
     
  3. alex-bot

    alex-bot Nulled-Man

    Регистр.:
    4 май 2007
    Сообщения:
    497
    Симпатии:
    144
    Инфа не личная, текст собирался парсером Гугла выложенным здесь же на Нулледе. (Если кому надо могу сделать скин фильтров) Текст как никак удалось почистить, единственное что осталось это табуляция при отсутствии точки в конце строки, т.е. как бы текст обрывается... если бы с этим кто помог... Хотя есть там фильтр tabs to spaces: ну чот он не понятно как пашет.

    ЗЫ Осталось ток одно в получившемся тексте удалить слова с ошибками... может из проффи кто подсказать как это сделать??? Я сейчас еще темку сделаю, нарыл я один скриптец, может кто-нить поможет его привести в рабочее состояния, а то я так и не догнал, что там ему надо... Скрипт на перле http://pikt.org/pikt/samples/spell_check.pl.html
     
  4. kornet

    kornet Создатель

    Регистр.:
    8 окт 2007
    Сообщения:
    36
    Симпатии:
    7
    поробуй прогу AfterScan Webmaster здесь на форуме выкладывали только для русских текстов, может найдешь для инглиша, нормально она тексты чистит, только все равно ручной работы много при исправлении орфографических ошибок.........
     
  5. fs84

    fs84 Читатель

    Заблокирован
    Регистр.:
    19 дек 2006
    Сообщения:
    150
    Симпатии:
    43
    Как пример:
    - textPIPE -> поиск и замена (replace) -> найти точно (find exactly) -> в первом поле правой клавищей мыши выбираем вставить спецсимвол и выбираем табуляцию или пишем в нашем случае \t -> так же выбираем символ перевода строки или \r, получается \t\r (или \t плюс клавиша enter)
    - заменить (во втором поле) на если перевод строки не нужен и хочется чтоб текст 1 строки не сливался со 2 строкой, пишем пробел.

    И так далее, смотрим косяки и ненужности, думаем как массово это изменить, составляем фильтр. Если бы ты пример проблемного файла положил, я тебе скинул пример фильтра...

    Пока не встречал скриптов для проверки и исправления ошибок правописания в паблике. Как выход могу предложить ОРФО На крайний вариант WORD. Но полного автомата ты все равно не получишь.

    На счет кодирововк советую Штирлиц (Shtirlitz IV), путем научного тыка попробуй определить какая у тебя кодировка файла. А пакетное конвертирование кодировок есть и textPIPE...

    З.Ы. чтоб базар не разводить пиши в личку...
     
    _sergey_ нравится это.
  6. Ragger

    Ragger

    Регистр.:
    14 июн 2008
    Сообщения:
    167
    Симпатии:
    183
Статус темы:
Закрыта.