Как сделать универсальный парсер?

Хочу поднять еще одну тему для уникального прасера. Для уникального парсера стоит задача перевода произвольной кодировки latin, iso, koi8r, windows и т.д. в одну единственную, например в utf-8.
Вот как победить эту проблему? Есть ли готовый велосипед?
Здесь несколько вариантов решения, либо смотреть на хэдеры посылаемые от сервера (Content-Type: text/xml; charset=xxx), хэдеры html страницы (<meta http-equiv="Content-Type" content="text/html; charset=xxx">) или же пробовать через автоанализатор кодировки.

Любой из этих методов часто дает сбой, подходить нужно комплексно и всеравно чтобы была возможность указывать кодировку вручную!
 
Смотреть заголовок ответа сервера. 99,9% дают правильную кодировку.
 
В моей статистике из 10 сайтов только у 7 кодировка отдается сервером. Думал может у кого-то есть готовый велосипед. На сайте dklab.ru было решение для перевода русскоязычных текстов в кодировку вин-1251 по содержимому текста. Но хотелось бы еще что-то похожее американское.
 
Назад
Сверху