«unicode» etiketlenmiş sorular

Unicode, tüm yazı sistemlerini, teknik sembolleri ve noktalama işaretlerini içeren yazılı metin için gerekli tüm karakterleri desteklemek amacıyla metnin kodlanması, gösterilmesi ve işlenmesi için bir standarttır.

8
Python unicode dizesindeki aksanları kaldırmanın en iyi yolu nedir?
Python bir Unicode dize var ve tüm aksanları (aksan) kaldırmak istiyorum. Web'de bunu Java'da yapmanın zarif bir yolunu buldum: Unicode dizesini normalleştirilmiş uzun biçimine dönüştürün (harfler ve aksan işaretleri için ayrı bir karakterle) Unicode türü "aksan" olan tüm karakterleri kaldırın. PyICU gibi bir kütüphane kurmam gerekir mi yoksa bu sadece …



12
UTF-8, UTF-16 ve UTF-32
UTF-8, UTF-16 ve UTF-32 arasındaki farklar nelerdir? Hepsinin Unicode depolayacağını ve her birinin bir karakteri temsil etmek için farklı sayıda bayt kullandığını anlıyorum. Birini diğerinden seçmenin bir avantajı var mı?
487 unicode  utf-8  utf-16  utf  utf-32 

12
Utf-8 metinlerini json.dumps içinde \ u escape sırası olarak değil, UTF8 olarak kaydetme
basit kod: >>> import json >>> json_string = json.dumps("ברי צקלה") >>> print json_string "\u05d1\u05e8\u05d9 \u05e6\u05e7\u05dc\u05d4" Sorun: insan tarafından okunamıyor. (Akıllı) kullanıcılarım, JSON dökümleriyle metin dosyalarını doğrulamak veya hatta düzenlemek istiyor (ve XML kullanmak istemiyorum). Nesneleri (yerine \uXXXX) UTF-8 JSON dizelerine serileştirmenin bir yolu var mı ?
474 python  json  unicode  utf-8  escaping 

30
Bir dizeyi ters çevirmenin en iyi yolu
Sadece C # 2.0 (yani LINQ kullanılabilir değil) bir dize ters işlevi yazmak zorunda kaldı ve bu ile geldi: public string Reverse(string text) { char[] cArray = text.ToCharArray(); string reverse = String.Empty; for (int i = cArray.Length - 1; i > -1; i--) { reverse += cArray[i]; } return reverse; …

18
Python ile Pandalar'da CSV dosyasını okurken UnicodeDecodeError
30.000 benzer dosyayı işleyen bir program çalıştırıyorum. Rastgele sayıda kişi bu hatayı durduruyor ve üretiyor ... File "C:\Importer\src\dfman\importer.py", line 26, in import_chr data = pd.read_csv(filepath, names=fields) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 400, in parser_f return _read(filepath_or_buffer, kwds) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 205, in _read return parser.read() File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 608, in read ret …


9
Unicode, UTF-8, UTF-16 nedir?
Unicode'un temeli nedir ve neden UTF-8 veya UTF-16'ya ihtiyaç var? Bunu Google'da araştırdım ve burada da aradım, ancak benim için net değil. VSS'de bir dosya karşılaştırması yaparken, bazen iki dosyanın farklı UTF'lerine sahip olduğunu belirten bir mesaj vardır. Neden böyle olsun? Lütfen basit terimlerle açıklayınız.

5
2+ 40 neden 42'ye eşittir?
Bir meslektaşım 42 JavaScript uyarısını bu satırda gösterdiğinde şaşırdım. alert(2+ 40); Kod snippet'ini çalıştırSonuçları gizleSnippet'i genişlet Bir eksi işaretine benzeyen şeyin aslında açıkça farklı semantiklere sahip bir gizli Unicode karakteri olduğu ortaya çıkıyor. Bu, ifade ayrıştırıldığında neden bu karakterin sözdizimi hatası üretmediğini merak etmemi sağladı. Ayrıca böyle davranan daha fazla …

11
ASCII olmayan tüm karakterler için nasıl grep yapabilirim?
Birkaç çok büyük XML dosyam var ve ASCII olmayan karakterler içeren satırları bulmaya çalışıyorum. Aşağıdakileri denedim: grep -e "[\x{00FF}-\x{FFFF}]" file.xml Ancak bu, satırda belirtilen aralıkta bir karakter içerip içermediğine bakılmaksızın dosyadaki her satırı döndürür. Sözdizimi yanlış mı yoksa yanlış bir şey mi yapıyorum? Ayrıca denedim: egrep "[\x{00FF}-\x{FFFF}]" file.xml (deseni çevreleyen …
360 regex  unix  unicode  grep 


6
R'de bir dizenin uzunluğu nasıl bulunur?
Bir dizenin uzunluğunu (dizgideki karakter sayısı) R'ye bölmeden nasıl bulurum? Bir liste uzunluğunu bulmak nasıl biliyorum ama bir dize değil. Peki ya Unicode dizeleri? Unicode dizesindeki uzunluğu (bayt cinsinden) ve karakter sayısını (runes, semboller) nasıl bulabilirim? İlgili Soru: R'de bir Unicode dizesindeki "gerçek" karakter sayısı nasıl bulunur

14
Python'daki dosyalara Unicode (UTF-8) okuma ve yazma
Bir dosyaya metin okumayı ve yazmayı anlamada beyin yetmezliği yaşıyorum (Python 2.4). # The string, which has an a-acute in it. ss = u'Capit\xe1n' ss8 = ss.encode('utf8') repr(ss), repr(ss8) ("u'Capit \ xe1n '", "' Capit \ xc3 \ xa1n '") print ss, ss8 print >> open('f1','w'), ss8 >>> file('f1').read() 'Capit\xc3\xa1n\n' …
329 python  unicode  utf-8  io 


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.