Dosya sistemimde (Windows 7) Bazı metin dosyalarım var (Bunlar önemliyse, SQL komut dosyalarıdır).
Notepad ++ ile açıldığında , "Kodlama" menüsünde, bazılarının "UCS-2 Küçük Endian" ve bazılarının "UTF-8" ürün reçetesiz "koduna sahip oldukları bildirilir.
Buradaki fark nedir? Hepsi mükemmel bir betik gibi görünüyor. Dosyanın hangi kodlamaları Notepad ++ olmadan olduğunu nasıl söyleyebilirim?
enca
ve chardet
POSIX sistemleri için.
iconv
özellikle bu amaç için kullanışlıdır. Temelde, hangisinin işe yaradığını görmek için bozuk karakter dizgilerini / metnini farklı kodlamalar aracılığıyla yinelersiniz. Karakterler artık bozulmadığında kazanırsınız. Programlı bir örnekle cevap vermeyi çok isterim. Fakat ne yazık ki korunan bir soru.
chardet
veya chardetect
mevcut değilse, paketi paket yöneticiniz aracılığıyla yükleyebilirsiniz (örn apt search chardet
. Ubuntu / debian paketinde genellikle python-chardet
ya python3-chardet
da denir ) ya da pip kullanarak pip install chardet
(veya pip install cchardet
daha hızlı c-optimize edilmiş versiyon için).