Bilgi Teorisinin Öğeleri ders kitabı bize bir örnek verir:
Örneğin, rastgele değişkenin gerçek dağılımını p bilseydik, ortalama tanım uzunluğu H (p) olan bir kod oluşturabilirdik. Bunun yerine q kodunu bir dağıtım için kullanırsak, rastgele değişkeni tanımlamak için ortalamada H (p) + D (p || q) bitlerine ihtiyacımız olacaktır.
Yukarıdaki ifadeyi deşifre etmek için, eğer bilgi dağılımını değiştirirsek (q'dan p'ye), yeni dağılımı kodlamak için ortalama D (p || q) ekstra bitlere ihtiyacımız olduğunu söyleyebiliriz.
Bir örnek
Bunun bir dilini doğal dil işlemesinde kullanarak açıklayayım.
İnsanların büyük bir grup, B etiketli, aracılar olduğunu düşünün ve bunların her birinden bir isim seçmek için bir görev verilir turkey
, animal
ve book
ve C iletim bunu vermek bunların bir e-posta her gönderebilir bir adam adı A yoktur Onlara bazı ipuçları. Gruptaki hiç kimse e-postayı almadıysa, kaşlarını kaldırabilir ve C'nin ihtiyaç duyduğu şeyi düşünerek bir süre tereddüt edebilir. Ve her bir seçeneğin seçilme olasılığı 1/3. Tamamen tekdüze dağılım (eğer değilse, kendi tercihleri ile ilgili olabilir ve biz bu davaları görmezden geliriz).
Ancak, eğer bir fiil verilirse baste
, bunların 3 / 4'ü seçim yapabilir turkey
ve 3 animal
/ 16'ları seçer ve 1 / 16'ları seçer book
. O zaman fiilleri öğrendikten sonra arabulucuların her biri ortalama olarak ne kadar bilgi edindi? Bu:
D(p(nouns|baste)||p(nouns))=∑x∈{turkey,animal,book}p(x|baste)log2p(x|baste)p(x)=34∗log23413+316∗log231613+116∗log211613=0.5709 bits
Peki ya verilen fiil ise read
? Hepsinin book
tereddüt etmeden seçeceğini düşünebiliriz , o zaman fiili her arabulucu için ortalama bilgi kazancı read
şudur:
D(p(nouns|read)||p(nouns))=∑x∈{book}p(x|read)log2p(x|read)p(x)=1∗log2113=1.5849 bits
read
Hikayemize devam edelim. C, ismin yanlış olabileceğinden şüpheleniyorsa, çünkü A, yanlış fiilleri arabuluculara göndererek hata yaptığını söyledi. Öyleyse, bitlerdeki bu kadar kötü bir haber ne kadar bilgi C verebilir?
baste
D(p(nouns)||p(nouns|baste))=∑x∈{turkey,animal,book}p(x)log2p(x)p(x|baste)=13∗log21334+13∗log213316+13∗log213116=0.69172 bits
read
D(p(nouns)||p(nouns|baste))=∑x∈{book,∗,∗}p(x)log2p(x)p(x|baste)=13∗log2131+13∗log2130+13∗log2130=∞ bits
C hiçbir zaman diğer iki ismin ne olacağını bilmediğinden ve kelime haznesindeki herhangi bir kelimenin mümkün olabileceğini bilmediğinden.
KL sapmasının asimetrik olduğunu görebiliriz.
Umarım haklıyım, lütfen yorum yapıp düzeltmeme yardımcı olmayın. Şimdiden teşekkürler.