Değişken karakter kümelerinde kodlanmış birçok düz metin dosyası vardır.
Hepsini UTF-8'e dönüştürmek istiyorum, ancak iconv komutunu çalıştırmadan önce orijinal kodlamasını bilmem gerekiyor. Çoğu tarayıcı Auto Detect
kodlamada bir seçeneğe sahiptir, ancak bu metin dosyalarını tek tek kontrol edemiyorum çünkü çok fazla var.
Sadece orijinal kodlamayı bilerek, o zaman metinleri dönüştürebilirim iconv -f DETECTED_CHARSET -t utf-8
.
Düz metin dosyalarının kodlamasını tespit etmek için herhangi bir yardımcı program var mı? % 100 mükemmel olmak zorunda DEĞİLDİR, 1.000.000 dosyada yanlış dönüştürülmüş 100 dosya olup olmadığını umursamıyorum.
python-chardet
Ubuntu evren deposunda olduğu gibi paketlendi .