Programlama unicode

8

Python unicode dizesindeki aksanları kaldırmanın en iyi yolu nedir?

Python bir Unicode dize var ve tüm aksanları (aksan) kaldırmak istiyorum. Web'de bunu Java'da yapmanın zarif bir yolunu buldum: Unicode dizesini normalleştirilmiş uzun biçimine dönüştürün (harfler ve aksan işaretleri için ayrı bir karakterle) Unicode türü "aksan" olan tüm karakterleri kaldırın. PyICU gibi bir kütüphane kurmam gerekir mi yoksa bu sadece …

507 python python-3.x unicode python-2.x diacritics

9

Unicode dizesini Python'daki bir dizeye dönüştürme (fazladan semboller içerir)

Bir Unicode dizesini (£ $ gibi ekstra karakterler içeren) Python dizesine nasıl dönüştürebilirsiniz?

504 python string unicode type-conversion

15

UTF-8 ve Unicode arasındaki fark nedir?

Wikipedia UTF-8 sayfasına göre insanlardan çelişkili görüşler duydum . Onlar aynı şey, değil mi? Birisi açıklığa kavuşturabilir mi?

503 unicode encoding utf-8 character-encoding terminology

12

UTF-8, UTF-16 ve UTF-32

UTF-8, UTF-16 ve UTF-32 arasındaki farklar nelerdir? Hepsinin Unicode depolayacağını ve her birinin bir karakteri temsil etmek için farklı sayıda bayt kullandığını anlıyorum. Birini diğerinden seçmenin bir avantajı var mı?

487 unicode utf-8 utf-16 utf utf-32

12

Utf-8 metinlerini json.dumps içinde \ u escape sırası olarak değil, UTF8 olarak kaydetme

basit kod: >>> import json >>> json_string = json.dumps("ברי צקלה") >>> print json_string "\u05d1\u05e8\u05d9 \u05e6\u05e7\u05dc\u05d4" Sorun: insan tarafından okunamıyor. (Akıllı) kullanıcılarım, JSON dökümleriyle metin dosyalarını doğrulamak veya hatta düzenlemek istiyor (ve XML kullanmak istemiyorum). Nesneleri (yerine \uXXXX) UTF-8 JSON dizelerine serileştirmenin bir yolu var mı ?

474 python json unicode utf-8 escaping

30

Bir dizeyi ters çevirmenin en iyi yolu

Sadece C # 2.0 (yani LINQ kullanılabilir değil) bir dize ters işlevi yazmak zorunda kaldı ve bu ile geldi: public string Reverse(string text) { char[] cArray = text.ToCharArray(); string reverse = String.Empty; for (int i = cArray.Length - 1; i > -1; i--) { reverse += cArray[i]; } return reverse; …

440 c# .net performance algorithm unicode

18

Python ile Pandalar'da CSV dosyasını okurken UnicodeDecodeError

30.000 benzer dosyayı işleyen bir program çalıştırıyorum. Rastgele sayıda kişi bu hatayı durduruyor ve üretiyor ... File "C:\Importer\src\dfman\importer.py", line 26, in import_chr data = pd.read_csv(filepath, names=fields) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 400, in parser_f return _read(filepath_or_buffer, kwds) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 205, in _read return parser.read() File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 608, in read ret …

411 python pandas csv dataframe unicode

9

ASCII ve Unicode arasındaki fark nedir?

Unicode ve ASCII arasındaki kesin fark nedir? ASCII'nin toplam 128 karakteri vardır (genişletilmiş kümede 256). Unicode karakterler için boyut belirtimi var mı?

407 unicode ascii

9

Unicode, UTF-8, UTF-16 nedir?

Unicode'un temeli nedir ve neden UTF-8 veya UTF-16'ya ihtiyaç var? Bunu Google'da araştırdım ve burada da aradım, ancak benim için net değil. VSS'de bir dosya karşılaştırması yaparken, bazen iki dosyanın farklı UTF'lerine sahip olduğunu belirten bir mesaj vardır. Neden böyle olsun? Lütfen basit terimlerle açıklayınız.

395 unicode encoding utf-8 utf-16

5

2+ 40 neden 42'ye eşittir?

Bir meslektaşım 42 JavaScript uyarısını bu satırda gösterdiğinde şaşırdım. alert(2+ 40); Kod snippet'ini çalıştırSonuçları gizleSnippet'i genişlet Bir eksi işaretine benzeyen şeyin aslında açıkça farklı semantiklere sahip bir gizli Unicode karakteri olduğu ortaya çıkıyor. Bu, ifade ayrıştırıldığında neden bu karakterin sözdizimi hatası üretmediğini merak etmemi sağladı. Ayrıca böyle davranan daha fazla …

360 javascript unicode

11

ASCII olmayan tüm karakterler için nasıl grep yapabilirim?

Birkaç çok büyük XML dosyam var ve ASCII olmayan karakterler içeren satırları bulmaya çalışıyorum. Aşağıdakileri denedim: grep -e "[\x{00FF}-\x{FFFF}]" file.xml Ancak bu, satırda belirtilen aralıkta bir karakter içerip içermediğine bakılmaksızın dosyadaki her satırı döndürür. Sözdizimi yanlış mı yoksa yanlış bir şey mi yapıyorum? Ayrıca denedim: egrep "[\x{00FF}-\x{FFFF}]" file.xml (deseni çevreleyen …

360 regex unix unicode grep

2

Unicode, UTF, ASCII, ANSI format farkları

Arasındaki fark nedir Unicode, UTF8, UTF7, UTF16, UTF32, ASCII, ve ANSIkodlamaların? Bunlar programcılar için ne şekilde yardımcı oluyor?

352 unicode character-encoding ascii ansi utf

6

R'de bir dizenin uzunluğu nasıl bulunur?

Bir dizenin uzunluğunu (dizgideki karakter sayısı) R'ye bölmeden nasıl bulurum? Bir liste uzunluğunu bulmak nasıl biliyorum ama bir dize değil. Peki ya Unicode dizeleri? Unicode dizesindeki uzunluğu (bayt cinsinden) ve karakter sayısını (runes, semboller) nasıl bulabilirim? İlgili Soru: R'de bir Unicode dizesindeki "gerçek" karakter sayısı nasıl bulunur

348 r string unicode string-length

14

Python'daki dosyalara Unicode (UTF-8) okuma ve yazma

Bir dosyaya metin okumayı ve yazmayı anlamada beyin yetmezliği yaşıyorum (Python 2.4). # The string, which has an a-acute in it. ss = u'Capit\xe1n' ss8 = ss.encode('utf8') repr(ss), repr(ss8) ("u'Capit \ xe1n '", "' Capit \ xc3 \ xa1n '") print ss, ss8 print >> open('f1','w'), ss8 >>> file('f1').read() 'Capit\xc3\xa1n\n' …

329 python unicode utf-8 io

18

Windows komut satırında unicode karakterler nasıl kullanılır?

Team Foundation Server'da (TFS) İngilizce olmayan bir karakter (š) bulunan bir projemiz var. Bir derlemeyle ilgili birkaç şeyi kodlamaya çalışırken bir sorunla karşılaştık - š harfini komut satırı araçlarına geçiremeyiz . Komut istemi veya başka bir şey onu bozmaz ve tf.exe yardımcı programı belirtilen projeyi bulamaz. Ben .bat dosyası için …

316 unicode command-line input windows-console

«unicode» etiketlenmiş sorular