о контенте и его чистке

Статус
В этой теме нельзя размещать новые ответы.

sexyboy

Постоялец
Регистрация
9 Июн 2008
Сообщения
90
Реакции
58
В меня есть много контента спарсеного с секс-рассказов(парсер Текстмейкер), немного посмотрев текстовку увидел там много "запрещенных" рассказов(подростки,инцест,зоо и другое),что с ними делать и как их чистить(есть база запрещенных слов, но я уверен на 100% что в текстовке еще найдется много запрещенных слов) можно ли такой контент юзать для доров, редбаттон его и так перемешает до неузнаваемости, но вот если какоето слово(допустим "инцест" или другое) будет в тексте стоять вместе с кеями(вероятность не большая не все же существует, тем более если в тексте много запрещенных слов), и ПС бот проиндексирует уже не так как нужно и уже будет ити не тот траф(а ето плохо), и вот сам вопрос нужно ли заморачиватся с етой чисткой текста?
 
Нет, не нужно очищать контент. Потому что кейворды перебьют содержание текста, да и вообще это миф про влияние тематического исходного контента для доров на отношение к нему ПС.
 
сделай массовую замену самых частых "запрещенных слов" и при перемешке с ключевиками норм будет
 
Ты бы не о словах парился, а о куче ошибок в тех текстах... Ну, а если уж так напрягает, то можно почистить текст на стоп слова, займет 1-2 минуты...
TextPipe + StopList = Прочистка
 
От основного мусора почистить, если что-то останется, не заморачивайся, ну уйдет у тебя некоторое кол-во кликов в "Blocked Words", главное чтоб остальное траф приносило. :)
 
вот представь, что ты взял идеально чистый текст с эротическими рассказами. И есть там, допустим, такие строки "Мы познакомились с ней когда она гуляла по парку со своей любимой собакой..." и дальше по тексту в сторону постельных сцен. Где гарантия, что после генерации у тебя не получится "....по парку групповой секс со своей любимой собакой.." :)))
Тоже будешь чистить такие рассказы?
 
вот представь, что ты взял идеально чистый текст с эротическими рассказами. И есть там, допустим, такие строки "Мы познакомились с ней когда она гуляла по парку со своей любимой собакой..." и дальше по тексту в сторону постельных сцен. Где гарантия, что после генерации у тебя не получится "....по парку групповой секс со своей любимой собакой.." :)))
Тоже будешь чистить такие рассказы?

Само собой, если слово собака/инцест/зоо/.../ в тексте встретится 1..2 раза - дору от этого не поплохеет. А вот если текст сугубо на "стоп"-тему, то без угрызения совести можна чистить под "0". ВСЕ зависит от того откуда парсим.

ЗЫ. Не вижу ничего зазорного, чтоб почистить и такие тексты (если парсено "с миру по нитке"). Или боишся, что если удалить все стоп слова то текст станет нечитабельным??? Так он(текст) после перетасовки и так нечитабельный на 96% доров. :ah:
 
Я в спарсенном тексте произвожу чистку по стоп словам, т.е делаю поочередную замену всех стоп слов на другое слово или пробел.
Делаю это или с помощью текстового редактора EmEditor:
Вот: EmEditor Professional 8.04 + key

или с помощью очень шустрой проги "Словогрыз"
 
  • Заблокирован
  • #9
UltraEdit - хороший текстовый редактор
зоо
инцест
животные
собака
дети
подростки
ребенок

Собственно по таким словам чищу
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху