Shannon Entropisi 0.922, 3 Farklı Değer


14

bir dizi değer verildiğinde , log base Shannon Entropy  gelir . Anladığım kadarıyla, taban  Shannon Entropy yuvarlanmış, değerlerden tek bir tanesini temsil etmek için ikili sayıdaki minimum bit sayısıdır.AAAAAAAABC20.9222

Bu wikipedia sayfasındaki girişten alınmıştır:

https://en.wikipedia.org/wiki/Entropy_%28information_theory%29

Peki, üç değer bir bit ile nasıl temsil edilebilir?  olabilir  ,  olabilir  ; ama nasıl temsil edebilirsin  ?A1B0C

Şimdiden teşekkür ederim.

Yanıtlar:


16

Hesapladığınız entropi oluşturur rastgele sembol kaynağı için, daha doğrusu belirli dize için gerçekten değil ama olasılığıyla  ve ve  olasılığıyla  her , birbirini izleyen semboller arasında bir korelasyon olmadan. Bu dağılım için hesaplanan entropi, , ortalama olarak karakter başına bit'ten daha azını kullanarak bu dağıtımdan oluşturulan dizeleri temsil edemeyeceğiniz anlamına gelir .A810BC1100.9220.922

Bu oranı elde edecek bir kod geliştirmek oldukça zor olabilir. * Örneğin, Huffman kod tahsis olur kodlama , ve  için , ve  arasında bir ortalama için sırasıyla  karakter başına bit. Bu entropiden oldukça uzak olsa da, karakter başına iki bitin saf kodlamasından daha iyi bir anlaşma. Daha iyi bir on ardışık bile çalıştırmak gerçeğini istismar muhtemelen olacaktır kodlama yönelik her türlü girişimin lar daha olasıdır (olasılık tek yerine)  .01011ABC1.2A0.107B


* İstediğiniz kadar yaklaşmanın zor olmadığı ortaya çıkıyor - diğer cevapları görün!


18

Her bir simgeyi ortalama olarak 1 bit'ten az olarak temsil edebilen somut bir kodlama:

İlk olarak, giriş dizesini birbirini izleyen karakter çiftlerine bölün (örneğin AAAAAAAABC AA | AA | AA | AA | BC | olur). Daha sonra AA'yı 0, AB olarak 100, AC olarak 101, BA olarak 110, CA olarak 1110, BB olarak 111100, BC olarak 111101, CB olarak 111110, CC olarak 111111 olarak kodlayın. Bir tek varsa ne olacağını söylemedim. ancak bazı rasgele kodlama kullanarak son sembolü kodlayabilirsiniz, girişin ne zaman uzun olduğu önemli değildir.

Bu, bağımsız sembol çiftlerinin dağılımı için bir Huffman kodudur ve Yuval'ın cevabında seçimine karşılık gelir . Daha büyük daha iyi kodlara yol açacaktır (bahsettiği gibi limitte Shannon entropisine yaklaşmak).n=2n

Yukarıdaki kodlama için sembol çifti başına ortalama bit sayısı yani sembol başına bit, Shannon entropisinden bu kadar basit bir kodlama için çok uzak değil.

8108101+38101103+1108104+41101106=1.92
1.92/2=0.96


13

Let üzerinden aşağıdaki dağılımı olması : Eğer o ve .D{A,B,C}XDPr[X=A]=4/5Pr[X=B]=Pr[X=C]=1/10

Her için önek kodları böylece nCn:{A,B,C}n{0,1}

limnEX1,,XnD[Cn(X1,,Xn)]n=H(D).

Yani, den çok sayıda bağımsız örneği , örnek başına ortalama bit gerekir. Sezgisel olarak, birden fazla bitle yapabilmemizin nedeni, her bir örneğin büyük olasılıkla olması ihtimalidir .DH(D)0.922A

Bu entropinin gerçek anlamıdır ve dizesinin "entropisini" hesaplamanın oldukça anlamsız bir egzersiz olduğunu gösterir.A8BC

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.