Как можно определить кодировку текста на пхп

Bicdibus

Участник
Регистрация
5 Мар 2010
Сообщения
497
Реакции
7
Я путем парсинга получаю текст с рандомных страниц сайтов, чарсет в хтмл очень часто не соответствует реальности. В задумке была перекодировка текста в утф-8, но перепробовав много разных вариантов(встроенных в пхп и сторонних бтблиотек) не получаеться даже нормально задетектить утф-8. Мне надо хотя бы определять что текст является утф. Лучшего что удалось достичь это около 70% точность определения, что слишком мало, приемлемо 90-95%.
 
responce headers?
 
чуток не то мне нужно готовый текст определить
 
составьте список наиболее часто встречающихся слов, диграмм и определяйте по ним
 
Назад
Сверху