Latin alfabesinin görsel ve işitsel olarak anlaşılır alt kümesi?

13

Birisine "5SBDO0" kodlu bir kart verdiğinizi düşünün.

Bazı yazı tiplerinde, "S" harfinin beş sayıdan görsel olarak ayırt edilmesi zordur (sıfır ve "O" harflerinde olduğu gibi).

Kodu yüksek sesle okumak, "B" yi "D" den ayırt etmek, "B çocuk gibi B", "D köpek gibi" demek veya yerine " fonetik alfabe " kullanmak zor olabilir .

Çoğu durumda, her ikisi de görsel olarak net görünecek ve yüksek sesle okunduğunda net görünecek en büyük harf ve sayı alt kümesi nedir?

Arka fon:

Yine de kolay iletişim kurarken mümkün olduğunca çok değeri kodlayabilecek kısa bir dize oluşturmak istiyoruz.

6 karakterli bir dizeniz olduğunu düşünün, "123456". Temel 10'da bu 10 ^ 6 değerini kodlayabilir .

Onaltılık "1B23DF" de aynı sayıda karakterde 16 ^ 6 değer kodlayabilirsiniz , ancak yüksek sesle okunduğunuzda bu belirsiz görünebilir. ("B" ve "D")

Aynı şekilde herhangi bir N karakter dizesi için (alfabe boyutu) ^ N değerleri elde edersiniz.

Dize, insan çalışma belleği kapasitesinin kapasitesine kolayca sığmak istediği için yaklaşık altı karakterle sınırlıdır .

Dolayısıyla, kodlayabileceğimiz maksimum değer sayısını bulmak için, en büyük belirsiz harf / sayı kümesini bulmamız gerekir. GZ harflerini ve bazı ortak noktalama işaretlerini dikkate alamamamız için hiçbir neden yok, ancak manuel olarak ikili olarak gitmek istemiyorum "G sesi A mı?", "G B gibi mi?", " G kendime C "gibi geliyor. Bildiğimiz gibi bunun O (n ^ 2) dilbilimsel iş olduğunu söyleyebilirim =) ...

design

— elliot42
kaynak

6

Hangi harflerin benzer olarak telaffuz edildiğine dikkat edin, diller arasında çok farklı olabilir ...

— Michael Borgwardt

Ayrıca, tam olarak ne Latin alfabesi?

— MSalters

Ayrıca ilgili StackOverflow sorusundaki cevabımı da görün .

— MSalters

Görsel ayrım için Base 32 , sembollerin benzerliklerini sınırlayan standart bir kodlamadır.

— Ocak'ta barjak

@MSalters "Latin alfabesi" bir dilbilimsel fikirdir, bizim amacımız için gerçekten sadece "Unicode'a kodlanmış Latin alfabesinin alt kümesinden seçim yapın", örneğin en.wikipedia.org/wiki/ISO/IEC_8859-1

— elliot42

15

Alfanümerik seti görsel benzerlikle gruplara ayırmalı ve her gruptan bir “en ikonik” temsilci seçmelisiniz. Bu, biraz sübjektiftir, ancak üzerinde kullanıcı testleri yapabilirsiniz. Yaptığınız seçimler, şekillerin yazdırılıp yazdırılmayacağına veya el yazısına da bağlı. Örneğin:

{ O , 0 , Q , D }
{ I , L , 1 }
{ B , 8 }
{ Z , 2 }
{ S , 5 }
{ 7 , T }
{ U , V , Y }

Benzer şekilde, karakterleri isimlerinin telaffuzlarının fonetik benzerliğine göre ayırın:

{ A [ʔeɪ], 8 [ʔeɪ (ʔ / t)]}
= [ʔeɪ] ile başlar
{ P [pi:], B [bi:], V [vi:], D [di:], T [ti:], E [ʔi:]}
= dur / sürtünme + [i:]
{ G [ʤi:], C [si:], Z [zi:], 3 [θɹi:]}
= sürtünmeli / affrikat (küme) + [i:]
{ M [ɛm], N [ɛn]}
= [ɛ] + burun
{ S []s], F [ɛf], X [ɛks]}
= [ɛ] + sürtünmeli / affricate
{ I [ʔaɪ], Y [waɪ], 5 [faɪv], 9 [naɪn]}
= ünsüz + [aɪ] + (ünsüz)
{ Q [kjʉ:], U [jʉ:], 2 [t (j) ʉ:]}
= ünsüz + [(j) ʉ:]

Bunlar elbette tek olası bölümler değil, şu anda akla gelen şeyler. Ne olursa olsun, daha fazla teste başlamanız için yeterli olmalıdır. Ayrıca, bunlar herhangi bir profesyonel kaynak tarafından desteklenmemektedir - sadece tipografi ve fonetik konusundaki hobilerimden bahsediyorum.

— Jon Purdy
kaynak

3

İşitsel benzerlikle başlamak için, Hava trafiği Kontrol operasyonları el kitapları (sözlü iletişimin doğru şekilde yorumlanması veya insanların ölmesi gerektiği yerlerde) ve Ham Radyo gibi radyo iletişimlerine bir göz atın. Örneğin 5 ve 9'un karıştırılması kolaydır, bu nedenle "beş" ve "dokuz-a" olarak konuşulur

— mattnz

@mattnz: Teşekkürler, 5 ve 9'u unuttum. Ses kalitesi de büyük bir faktör: radyolar, telefonlar, stüdyo kayıtları ve yüz yüze iletişim, hepsi kendi benzersiz problemlerini ortaya koyuyor.

— Jon Purdy

1

Teknik olarak bu "niner", dördü "fower" dır.

— Patrick Hughes

3

Sen kullanabilirsiniz Mekanik Türk'ü gerçek insanlar işitsel ve görsel benzerlik için tüm harfleri 26 ^ 2 çift oranı olması. Avantajı, bu yolla çeşitli yerel diller için veri bile alabilmenizdir.

— Michael Borgwardt
kaynak

1

İngilizce için soundex ve Metaphone algoritmaları hangi seslerin belirsiz olduğunu kodlar. Soundex muhtemelen çok basit, ancak Metaphone bazı iyi noktaları içeriyor. "OU" dizisini istiyor musunuz? Bu cümle ibaret olduğu için bu birçok yönden telaffuz edilebilir;)

— MSalters
kaynak

0

Jon Purdy'nin yukarıdaki cevabı en doğru görünüyor. Pratik amaçlar için, z-base-32çalışabilirlik göz önünde bulundurularak tasarlanmış standart olmayan bir base32 kodlaması deniyorum. İdeal olmasa da işlevsel görünüyor - örneğin açıkça konuşulan anlamsızlığa odaklanmadılar.

http://philzimmermann.com/docs/human-oriented-base-32-encoding.txt

http://pypi.python.org/pypi/zbase32/

— elliot42
kaynak