Bizim uygulamada, biz metin dosyaları (almak .txt
, .csv
çeşitli kaynaklardan, vs.). Okurken, bu dosyalar bazen çöp içerir, çünkü farklı / bilinmeyen bir kod sayfasında oluşturulan dosyalar.
Bir metin dosyasının kod sayfasını (otomatik olarak) tespit etmenin bir yolu var mı?
detectEncodingFromByteOrderMarks
Üzerinde StreamReader
yapıcı, çalışır UTF8
ve diğer unicode işaretli dosyalar fakat bunun, kod sayfalarını tespit etmek için bir yol arıyorum ibm850
, windows1252
.
Cevaplarınız için teşekkürler, yaptığım şey bu.
Aldığımız dosyalar son kullanıcılardan, kod sayfaları hakkında bir ipucu yok. Alıcılar da son kullanıcı, şimdiye kadar kod sayfaları hakkında bildikleri şey bu: Kod sayfaları var ve sinir bozucu.
Çözüm:
- Alınan dosyayı Not Defteri'nde açın, bozuk bir metin parçasına bakın. Eğer birine François falan denirse, insan zekanızla bunu tahmin edebilirsiniz.
- Kullanıcının dosyayı açmak için kullanabileceği küçük bir uygulama oluşturdum ve doğru kod sayfası kullanıldığında kullanıcının dosyada görüneceğini bildiği bir metin girdim.
- Tüm kod sayfalarında dolaşın ve kullanıcı tarafından sağlanan metinle çözüm sağlayanları görüntüleyin.
- Birden fazla kod sayfası açılırsa kullanıcıdan daha fazla metin belirtmesini isteyin.