Сканированый текст для контента??

Статус
В этой теме нельзя размещать новые ответы.
ну да, и для английских текстов это не так критично как для рашн, у нас то на порядок сложнее из синонимов нормальный текст составить
 
а вообще кто какие синонимайзеры и бызы использует для уникализации контента? вопрос вроде как раз в тему...
 
Как один из вариантов уникализации(синонимизации) текста могу предложить превод ru->en, а затем обратно en->ru. За счет неоднозначности перевода некоторых слов на выходе получаем текст, отличный от исходного. Можно поэкспериментировать с различными перводчиками на каждой из стадий (например в одну сторону гугл.транслейт а в обратную транслейт.ру либо дескотпный переводчик). А также можно после первого перевода провести синонимизацию.
 
  • Заблокирован
  • #54
да уж под доры текст сканить это конечно сильно..
лучше уж на таком тексте сателлитов наделать да в линк-биржи загнать. помоему экономический эффект будет куда больше..))
 
Один амер всерьёз предлагает распознавать аудиозапись голоса для получения уникальных текстов.

Для русского языка распознавалки совсем чахленькие.
Для английского - чуть помощьнее.

Я эту тему так и не попробовал. Но, по идее, если корректно настроить распознавалку, если текст хорошего качества, разборчивый, и голос равномерный и один и тот-же - то да, это вполне возможный вариант.

Но, конечно, пока сканирование для русского языка будет быстрее и качественнее.
 
Один амер всерьёз предлагает распознавать аудиозапись голоса для получения уникальных текстов.

Для русского языка распознавалки совсем чахленькие.
Для английского - чуть помощьнее.

Я эту тему так и не попробовал. Но, по идее, если корректно настроить распознавалку, если текст хорошего качества, разборчивый, и голос равномерный и один и тот-же - то да, это вполне возможный вариант.

Но, конечно, пока сканирование для русского языка будет быстрее и качественнее.

Дело в том, что аудиотексты то будут уникальными, кроме тех аудио книги которых уже отсканили:D, но распознавание то будет идти один к одному, тоесть час чтения = 500 знаков (ХЗ) за ето время быстрей наверное отсканить и срерайтить больше можно ИМХО, хотя если будет кнопКА сконвертировать файл мп3 в ТХТ, то тогда - ДА :smmne:
 
ну зачем-же распознавалку голоса применять для аудиокниг..

Ведь до сих пор существует куча длинноволновых радиостанций с бесконечными нудными тематическими интервью ;)
 
Совершенно верно. Имелись ввиду не художественные тексты, а презентации, политические выступления, и прочие тексты, стенограмм или текстов которых в Интернете нет.
Плюс, при распознавании часть слов распознаётся некорректно. Хотя для читаемости это и не хорошо, но для уникальности - это только плюс.
 
А смысл вообще под доры где текст кверх тормашками какой либо скан? Те же презентации и выступления можно слегка обработать и повесить на MFS.
 
проще наверно наспарсить тематичных снипетов гугла и их микшировать....чем нетематичный текст разбавлять ключами
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху