Помогите подобрать фильтры для TextPipePro для очистки текста

Статус
В этой теме нельзя размещать новые ответы.

alex-bot

Nulled-Man
Регистрация
4 Май 2007
Сообщения
496
Реакции
161
Народ может кто подсказать какие фильтры нужно использовать чтобы максимально очистить текст от всякой шняги, символов из разных кодировок, ну и тд и тп... вот копаюсь второй день, но толку... мало
  
вђ”
hг¶gl;
don’t
't
Вот эт самое безобидное, но было и похуже текст в сплошных закорючках...
Ну т.е. задача:
1. удалить все символы кроме букв цыфр и знаков препинания
2. Это посложнее возможно ли удалить табуляцию, если на конце строки не стоит точка? Т.е. обеъденить текст в предложения...

PS. Это уже не по Текст пайпу но интересует, а можно ли например тем же вордом проверить текст на орфографические ошибки, и все слова, которых нет в английском языке либо исправить либо удалить??? - Или это из области фантастики???

Заранее спасибо за любую помощь и советы как этого добиться... Думаю не только мне это будет полезно...

А может у кого то уже есть собранный фильтр для Текст-пайпа и может поделиться...
 
  • Заблокирован
  • #2
Если инфа не сугубо личная, выложи куски текста, или весь файл, тогда смогу помочь...
 
Если инфа не сугубо личная, выложи куски текста, или весь файл, тогда смогу помочь...
Инфа не личная, текст собирался парсером Гугла выложенным здесь же на Нулледе. (Если кому надо могу сделать скин фильтров) Текст как никак удалось почистить, единственное что осталось это табуляция при отсутствии точки в конце строки, т.е. как бы текст обрывается... если бы с этим кто помог... Хотя есть там фильтр tabs to spaces: ну чот он не понятно как пашет.

ЗЫ Осталось ток одно в получившемся тексте удалить слова с ошибками... может из проффи кто подсказать как это сделать??? Я сейчас еще темку сделаю, нарыл я один скриптец, может кто-нить поможет его привести в рабочее состояния, а то я так и не догнал, что там ему надо... Скрипт на перле
 
поробуй прогу AfterScan Webmaster здесь на форуме выкладывали только для русских текстов, может найдешь для инглиша, нормально она тексты чистит, только все равно ручной работы много при исправлении орфографических ошибок.........
 
  • Заблокирован
  • #5
Текст как никак удалось почистить, единственное что осталось это табуляция при отсутствии точки в конце строки, т.е. как бы текст обрывается...
Как пример:
- textPIPE -> поиск и замена (replace) -> найти точно (find exactly) -> в первом поле правой клавищей мыши выбираем вставить спецсимвол и выбираем табуляцию или пишем в нашем случае \t -> так же выбираем символ перевода строки или \r, получается \t\r (или \t плюс клавиша enter)
- заменить (во втором поле) на если перевод строки не нужен и хочется чтоб текст 1 строки не сливался со 2 строкой, пишем пробел.

И так далее, смотрим косяки и ненужности, думаем как массово это изменить, составляем фильтр. Если бы ты пример проблемного файла положил, я тебе скинул пример фильтра...

ЗЫ Осталось ток одно в получившемся тексте удалить слова с ошибками... может из проффи кто подсказать как это сделать???
Пока не встречал скриптов для проверки и исправления ошибок правописания в паблике. Как выход могу предложить На крайний вариант WORD. Но полного автомата ты все равно не получишь.

На счет кодирововк советую Штирлиц (Shtirlitz IV), путем научного тыка попробуй определить какая у тебя кодировка файла. А пакетное конвертирование кодировок есть и textPIPE...

З.Ы. чтоб базар не разводить пиши в личку...
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху