file
"ISO dışı genişletilmiş ASCII metni" ifadesini kullandığını belirtti:
- büyük olasılıkla satır sonları dışındaki kontrol karakterlerinin eksikliğinden (0–31 bayt değerleri) bir “metin” dosyası;
- “Genişletilmiş ASCII” çünkü ASCII aralığının dışında karakterler var (bayt değerleri ≥128);
- “ISO dışı” çünkü 128–159 aralığında karakterler var ( ISO 8859 bu karakteri kontrol karakterleri için ayırıyor ).
Bu dosyayı kodlamanın hangi kodda olduğunu bulmak zorundasınız . Enca'nın otomatik olarak tanınmasını deneyebilirsiniz . Metnin hangi dilde olduğunu söyleyerek doğru yönde dürtmek zorunda kalabilirsiniz.
enca x.txt
enca -L polish x.txt
Dosyayı dönüştürmek için -x
seçeneği iletin:enca -L polish x.txt -x utf8 >x.utf8.txt
Enca kullanmak istemiyorsanız veya istemiyorsanız, kodlamayı manuel olarak tahmin edebilirsiniz. Etrafa Biraz bu Polonyalı metindir ve bir çeviri için aradığınız bu yüzden kelimeler, trwały, STALY, usuważ olduğunu söyledi nerede ³
→ ł
veæ
→ 'nınż
. Bu, latin-2 veya latin-10'a benziyor veya daha muhtemel ( latin1 olarak görüntülemekte olduğunuz “ISO olmayan” CP1250 veriliyorsa . Dosyayı UTF-8'e dönüştürmek için recode veya iconv kullanabilirsiniz .
recode CP1250..utf8 <x.txt >x.utf8.txt
iconv -f CP1250 -t UTF-8 <x.txt >x.utf8.txt