Utf-8 veya iso-8859-1 gibi görünmeyen bir şeydir. Başka bir şey olabilir. Hiç bir metin bile olmayabilir. Bu tür, sıfır bayt içermeyen bir şey için geri dönüş açıklamasıdır.
Aslında bir metin dosyası olsa bile (uzantı olabileceğini öne sürüyor), ne yazık ki kodlamayı bulmanın otomatik bir yolu yoktur, çünkü çoğu kodlamanın aynı geçerli kod aralığına sahip olması gerekir. Utf-8'e çok yüksek güven ile ayrı ayrı söylenebilir, ancak bunun ötesinde manuel kontrol gerektirir.
Öncelikle, doğru içeriğin ne olduğu ve bozuk içeriğin ne olduğu hakkında fikir sahibi olmak ve olası kodlamaların bir listesine sahip olmak için dosyanın hangi dilde olduğunu bulmak zorundasınız. Zilyonlarca kodlama olduğundan, herhangi bir dil için yalnızca birkaçı kullanılmıştır.
Daha sonra dosyayı mümkün olan her kodlamadan ve teknik olarak başarılı olan her bir dönüşüm için (ki ne yazık ki çoğu olacaktır) dönüştürmeyi denemelisiniz, sonucu görüntüleyin ve doğru olup olmadığını kontrol edin.
Yazım denetleyici incelemede size yardımcı olabilir, çünkü yanlış dönüştürmeler daha fazla yazım denetleyici hatasına neden olur.
Dönüşüm için, libu paketinden GNU / Linux'ta kurulu iconv
(1) kullanabilirsiniz recode
. recode
daha fazla seçenek ve daha iyi hata yönetimi var.