UTF-8 karakter seti değil , sadece Unicode için bir kodlama. İlk 128 karakter ASCII ile aynıdır, ancak yüksek 128 baytta farklılık gösterir. Yüksek bit ayarlı bir bayt (veya> = 0x80) ASCII’de genişletilmiş bir karakter iken UTF-8’de çoklu bayt dizisinin başlangıç baytını gösterir. Bu yukarıdaki 0x93 veya 0x94 durumudur. Ancak, dosyada garip bir şey görmüyorum. Bunlar akıllı tırnaklar veya MS Word gibi zengin bir metin düzenleyiciyi kullanırken sıkça gördüğünüz tırnakların açılması ve kapanması için farklı formlara sahip tırnaklardır.
Düzenle
Soru düzenlendi. Bence yanlış aracı seçtin. encode
Menü öğeleri yanlış karakter görüntüler varsa kodlamasını değiştirmek içindir. Sadece diskten okunan aynı byte sırasını başka bir kodlama gibi ele alır. ASCII ve UTF-8 farklı olduğundan, hatalı biçimlendirilmiş bir UTF-8 bayt sırasına sahip olacak ve yukarıdaki sonucu göreceksiniz. convert to UTF-8
Tüm giriş baytını değiştirmek için bunun seçilmesi gerekir
Ayrıca ANSI ve ASCII'yi de karıştırdınız. ANSI genellikle İngilizce Windows ve bazı Batı Avrupa dillerinde kullanılan bir karakter kümesi olan Windows-1252'yi ifade eder. ISO 8859-1'in bir üst kümesi olmasına rağmen, ISO 8859-1 ayrıca ANSI olarak da adlandırılabilir. ISO 8859-1 aynı zamanda Unicode'un ilk 256 kod noktasıdır, bu nedenle Unicode'un bir alt kümesidir, ancak UTF-8 kodlamasıyla uyumlu değildir. ASCII, 7 bitlik bir karakter kümesidir ve 8 bit tarafından kodlanan ANSI'nin bir alt kümesidir, ancak çok doğru olmasa da, bazen ANSI olarak da adlandırılır.
https://en.wikipedia.org/wiki/ANSI_character_set
Genel olarak karakter kümeleri arasındaki ilişki aşağıdaki gibidir.
ASCII < ISO 8859-1 < Windows-1252
^
Unicode