«utf-8» etiketlenmiş sorular

UTF-8, bir ila dört baytlık bir bayt dizisi kullanarak her Unicode kod noktasını tanımlayan bir karakter kodlamasıdır. Tüm Unicode kod noktalarının gösterilmesini desteklerken ASCII ile geriye dönük uyumludur.

8
Bayt sırası işareti, Java'da dosya okumayı hızlandırır
Java kullanarak CSV dosyalarını okumaya çalışıyorum. Bazı dosyaların başında bayt sırası işareti olabilir, ancak hepsinde değil. Varsa, bayt sırası ilk satırın geri kalanıyla birlikte okunur ve bu da dizge karşılaştırmalarında sorunlara neden olur. Bayt sırası işaretini varken atlamanın kolay bir yolu var mı? Teşekkürler!

5
Unicode karakterlerini URL kodlamanın doğru yolu nedir?
Standart olmayan% uxxxx şemasını biliyorum, ancak bu plan W3C tarafından reddedildiği için akıllıca bir seçim gibi görünmüyor. Bazı ilginç örnekler: Kalp karakteri. Bunu tarayıcıma yazarsam: http://www.google.com/search?q=♥ Sonra kopyalayıp yapıştırın, bu URL'yi görüyorum http://www.google.com/search?q=%E2%99%A5 Firefox (veya Safari) bunu yapıyor gibi görünmesini sağlar. urllib.quote_plus(x.encode("latin-1")) '%E2%99%A5' Bu, üçlü nokta karakteri gibi Latin-1'de kodlanamayan …

10
UnicodeDecodeError: 'ascii' codec bileşeni, 2 konumundaki bayt 0xd1'in kodunu çözemiyor: ordinal aralıkta değil (128)
İçinde bazı standart olmayan karakterler bulunan çok büyük bir veri kümesiyle çalışmaya çalışıyorum. İş özelliklerine göre unicode kullanmam gerekiyor, ancak şaşkınım. (Ve muhtemelen her şeyi yanlış yapmak.) CSV'yi şunu kullanarak açıyorum: 15 ncesReader = csv.reader(open('geocoded_output.csv', 'rb'), delimiter='\t', quotechar='"') Sonra onu şu şekilde kodlamaya çalışıyorum: name=school_name.encode('utf-8'), street=row[9].encode('utf-8'), city=row[10].encode('utf-8'), state=row[11].encode('utf-8'), zip5=row[12], zip4=row[13],county=row[25].encode('utf-8'), …
107 python  django  utf-8 

16
UnicodeDecodeError: 'ascii' codec bileşeni, konum 1'deki bayt 0xef kodunu çözemiyor
Bir dizeyi UTF-8 olarak kodlamaya çalışırken birkaç sorun yaşıyorum. Kullandığım dahil çok sayıda şeyleri, denedim string.encode('utf-8')ve unicode(string)ama hata alıyorum: UnicodeDecodeError: 'ascii' codec bileşeni, 1 konumundaki bayt 0xef kodunu çözemiyor: ordinal aralıkta değil (128) Bu benim dizim: (。・ω・。)ノ Neyin yanlış gittiğini anlamıyorum, herhangi bir fikriniz var mı? Düzenleme: Sorun, dizeyi olduğu …
106 python  unicode  utf-8 

2
PowerShell'in varsayılan çıktı kodlamasını UTF-8 olarak değiştirme
Varsayılan olarak, bir komutun çıktısını bir dosyaya yönlendirdiğinizde veya PowerShell'de başka bir şeye yönlendirdiğinizde, kodlama UTF-16'dır ve bu kullanışlı değildir. UTF-8 olarak değiştirmek istiyorum. >foo.txtSözdizimini ile değiştirerek duruma göre yapılabilir, | out-file foo.txt -encoding utf8ancak bunun her seferinde tekrarlanması gariptir. Bir şeyleri PowerShell'de ayarlamanın kalıcı yolu onları yerleştirmektir \Users\me\Documents\WindowsPowerShell\profile.ps1; Bu …

8
C # Dizeyi UTF-8'den ISO-8859-1'e (Latin1) H dönüştür
Bu konuyu Google'da araştırdım ve her cevaba baktım, ancak yine de anlamıyorum. Temel olarak UTF-8 dizesini ISO-8859-1'e dönüştürmem gerekiyor ve bunu aşağıdaki kodu kullanarak yapıyorum: Encoding iso = Encoding.GetEncoding("ISO-8859-1"); Encoding utf8 = Encoding.UTF8; string msg = iso.GetString(utf8.GetBytes(Message)); Kaynak dizem Message = "ÄäÖöÕõÜü" Ama ne yazık ki sonuç dizim msg = …
104 c#  .net  encoding  utf-8  iso-8859-1 

4
Yunan sembolleri ggplot2'de nasıl kullanılır?
Kategorilerimin Yunan harfleriyle adlandırılması gerekiyor. Ben kullanıyorum ggplot2ve verilerle çok güzel çalışıyor. Ne yazık ki bu Yunan sembollerini x eksenine (çentik işaretlerine) nasıl yerleştireceğimi ve aynı zamanda efsanede görünmelerini sağlayamıyorum. Bunu yapmanın bir yolu var mı? GÜNCELLEME: Bağlantıya bir göz attım , ancak yapmak istediğim şeyi başarmak için açıklanmış iyi …
102 r  graphics  unicode  utf-8  ggplot2 



10
UTF-8 kaç karakter kodlayabilir?
UTF-8'in 8 bit olması, en fazla 256 farklı karakter olabileceği anlamına gelmez mi? İlk 128 kod noktası ASCII'deki ile aynıdır. Ancak UTF-8'in milyon karaktere kadar destekleyebileceğini söylüyor? Bu nasıl çalışıyor?

6
XML Serileştirme için StringWriter Kullanma
Şu anda nesneleri seri hale getirmenin kolay bir yolunu arıyorum (C # 3'te). Google'da bazı örnekler inceledim ve şöyle bir şey buldum: MemoryStream memoryStream = new MemoryStream ( ); XmlSerializer xs = new XmlSerializer ( typeof ( MyObject) ); XmlTextWriter xmlTextWriter = new XmlTextWriter ( memoryStream, Encoding.UTF8 ); xs.Serialize ( …

5
Örnek geçersiz utf8 dizesi?
Bazı kodumun kötü verileri nasıl işlediğini test ediyorum ve geçersiz UTF-8 olan birkaç bayta ihtiyacım var. Bazılarını ve ideal olarak, neden kötü olduklarına / onları nereden aldığınıza dair bir açıklama gönderebilir misiniz?

3
InputStream'i UTF-8 Olarak Okuma
text/plainİnternetteki bir dosyadan satır satır okumaya çalışıyorum . Şu anda sahip olduğum kod: URL url = new URL("http://kuehldesign.net/test.txt"); BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream())); LinkedList<String> lines = new LinkedList(); String readLine; while ((readLine = in.readLine()) != null) { lines.add(readLine); } for (String line : lines) { out.println("> " + line); …

11
BOM ile UTF-8 dosyalarını aramanın zarif yolu?
Hata ayıklama amacıyla, UTF-8 bayt sıra işareti (BOM) ile başlayan tüm dosyalar için yinelemeli olarak bir dizinde arama yapmam gerekiyor. Mevcut çözümüm basit bir kabuk betiğidir: find -type f | while read file do if [ "`head -c 3 -- "$file"`" == $'\xef\xbb\xbf' ] then echo "found BOM in: $file" …
94 php  utf-8  shell  text-editor 

9
Python ile UTF8 CSV dosyası okumak
Python ile aksanlı karakterler içeren bir CSV dosyası okumaya çalışıyorum (sadece Fransızca ve / veya İspanyolca karakterler). Csvreader ( http://docs.python.org/library/csv.html ) için Python 2.5 belgelerine dayanarak , csvreader yalnızca ASCII'yi desteklediğinden, CSV dosyasını okumak için aşağıdaki kodu buldum. def unicode_csv_reader(unicode_csv_data, dialect=csv.excel, **kwargs): # csv.py doesn't do Unicode; encode temporarily as …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.