Bilgi teorisi OLMADAN Kullback-Leibler ıraksama


23

Cross Validated'in trollenmesinden sonra hala, KL bilgi ayrıntısını bilgi teorisi dünyasının dışında anlamaya daha yakın olduğumu hissetmiyorum. Bilgi teorisi açıklamasını daha kolay anlayabilmeniz için Matematik kökenli biri olarak oldukça garip.

Anlayışımı bir bilgi teorisi altyapısından özetlemek için: Sınırlı sayıda sonuç içeren rastgele bir değişkenimiz varsa, sonucu ortalama olarak en kısa mesajla başka biriyle paylaşmamızı sağlayan optimal bir kodlama vardır (bunu en kolay buluyorum) bit cinsinden resim). En iyi kodlama kullanılıyorsa , sonucun iletilmesi gereken mesajın beklenen uzunluğu verilir. Bir alt optimal kodlama kullanacak olsaydınız, KL farklılaşması bize ortalama olarak mesajımızın ne kadar uzun olacağını söyler.

-Σαpαgünlük2(pα)

Bu açıklamayı sevdim, çünkü KL sapmasının asimetrisi ile sezgisel bir şekilde ilgileniyor. İki farklı sistemimiz varsa, yani farklı şekilde yüklenmiş iki yüklü paramız varsa, farklı optimal kodlamalara sahip olurlar. Her nasılsa içgüdüsel olarak ikinci sistemin ilk kodlamasını kullanmanın, ilk sistemin ikinci kodlamasını kullanmanın "eşit derecede kötü" olduğunu hissetmiyorum. Kendimi nasıl ikna ettiğimin düşünce sürecinden geçmeden, şimdi oldukça mutluyum. bu "ek beklenen mesaj uzunluğu", kullanıldığında verir 'la kodlama .qp

Σαpα(günlük2qα-günlük2pα)
qp

Bununla birlikte, Wikipedia da dahil olmak üzere çoğu KL ayrıntısı tanımları, (ayrık terimlerle ayrık olarak çok daha iyi çalışan bilgi teorisi yorumlamaları ile karşılaştırılabilir olması için karşılaştırılabilir olması için) ifadesini iki ayrık olasılığımız varsa dağıtımlar, daha sonra KL, "ne kadar farklı olduklarının" bir ölçüsünü sağlar. Bu iki kavramın nasıl birleştiğine dair tek bir açıklama görmedim. Çıkarım hakkındaki kitabında hatırlıyor gibiyim, Dave Mackay, veri sıkıştırma ve çıkarımın temelde aynı şey olduğuna dair puan veriyor ve sorumun bununla gerçekten ilgili olduğundan şüpheliyim.

Olup olmamaya bakılmaksızın, aklımdaki soru türü çıkarım sorunları ile ilgilidir. (Her şeyi ayrık tutmak), eğer iki radyoaktif örneğimiz varsa ve bunlardan birinin bilinen radyoaktiviteye sahip belirli bir malzeme olduğunu biliyoruz (bu şüpheli bir fizik ama evrenin böyle çalıştığını düşünelim) ve böylece "gerçek" dağılımını biliyoruz. ölçmemiz gereken radyoaktif tıklamaların bilinen ile poissonian olması gerekir , her iki örnek için ampirik bir dağılım oluşturmak ve KL sapmalarını bilinen dağılımla karşılaştırmak ve altının bu malzeme olma ihtimalinin daha yüksek olduğunu söylemek doğru olur mu?λ

Şüpheli fizikten uzaklaşmak, aynı numuneden iki numunenin alındığını biliyorum, fakat rastgele seçilmediklerini biliyorum, KL sapmalarını bilinen, global dağıtımla karşılaştırarak bana numunelerin "ne kadar önyargılı olduğunu" hissettiriyordum , zaten birine göre ve diğer?

Ve son olarak, önceki soruların cevabı evet ise, neden? Bu şeyleri, bilgi teorisine herhangi bir (muhtemelen tenuous) bağlantı kurmadan, istatistiksel açıdan tek başına anlamak mümkün müdür?


1
Burada cevabımı görün: istatistik.stackexchange.com/questions/188903/… bilgi teorisine atıfta bulunmuyor
kjetil b halvorsen

1
KL ayrımı tamamen bir bilgi teorisi kavramı değil midir? Bir Bayesian öncüsü ile posterior ya da onun gibi bir şey arasında karşılıklı bilgi verdiğini biliyorum ve bunu bir kez Fenchel dönüşümleri / konjugatları (büyük sapma teorisi) bağlamında gördüğümü hatırlıyorum, ancak her durumda bunun bir bilgi teorisi konsepti olduğunu düşündüm. .
Chill2Macht

Yanıtlar:


23

Kullback-Leibler'in ayrışmasına tamamen istatistiksel bir yaklaşım var: Örnek olarak bilinmeyen bir dağıtım X_n örnek alın ve potansiyel dağılımların bir ailesinin uygun olduğunu düşünün, Karşılık gelen olasılık ve logaritma Bu nedenle, hangi Kullback-Leibler’in vep F = { p θX1,...,XnpL ( θ | x 1 , , x n ) = n i = 1 p θ ( x i ) ( θ | x 1 , , x n ) = n i = 1 log p θ ( x i ) 1

F={pθ, θΘ}
L(θ|x1,...,xn)=Πben=1npθ(xben)
(θ|x1,...,xn)=Σben=1ngünlükpθ(xben)
p θ p H ( p θ | p ) def = log { p ( x ) / p θ ( x ) }
1n(θ|x1,...,xn)E[günlükpθ(X)]=günlükpθ(x)p(x)dx
pθp
H(pθ|p)=deflog{p(x)/pθ(x)}p(x)dx
diğer kısım , değerinin minimum [in ] sıfıra eşit olması.θ H ( p θ | p )
log{p(x)}p(x)dx
θ'H(pθ|p)

Farklılığı, bilgi teorisini ve istatistiksel çıkarımı bağlayan bir kitap, Rissanen'in burada incelediğim parametrelerin Optimal kestirimidir .


Bunun sayısal bir örneğini görme olasılığı var mı?
Paul Uszak,

Bazı gerçek sayıları görmeyi kastediyorum. Teori sevimli ama dünya sayılar üzerinde çalışıyor. Gerçek sayıları kullanan hiçbir KL ayrıntısı örneği yoktur, bu yüzden olası bir uygulaması olmayan bir teori olduğu sonucuna vardım. OP, bitlerdeki mesajların uzunluğunu ve veri sıkıştırmasını tartıştı. İçinde çok fazla bit olan herhangi bir örneğe
değiniyordum

2
@PaulUszak: Size bir N (0,1) ve N (1,1) dağılımı arasındaki Kullaback-Leibler mesafesinin 1/2 olduğunu söylersem, bu nasıl yardımcı olur?
Xi'an

2
@ Xi'an: Bu sayı 1/2 ile ilgili olabilirlik oranı testinin gücü arasında bir bağlantı olmalı mı?
kjetil b halvorsen,

7
+1 Yorumun başlığını tekrarı: Akıl, “bit sayısı” na indirgenemeyecek herhangi bir kavramın işe yaramaz olduğu düşüncesiyle övünüyor.
whuber

8

IJ Good'dan gevşek bir şekilde alınan Kullback-Leibler ayrıntısının istatistiksel bir yorumu : (Kanıt ağırlığı: Kısa bir anket , Bayesian Statistics 2, 1985).

Kanıtın ağırlığı.

x1,x2,...,xnf0'H1'H2f0'H1={f1}'H2={f2}f0f1f2

x=(x1,...,xn)'H1'H2

W(x)=günlükf1(x)f2(x).
P'H0'H1W
günlükP('H0|x)P('H1|x)=W(x)+günlükP('H0)P('H1).
W(x1,...,xn)=W(x1)++W(xn).
W(x)x'H1'H2

xW(x)W(x)>2

Kullback-Leibler ayrıntısı

f1f2xf1

KL(f1,f2)=Exf1W(x)=f1logf1f2.

xf1H1={f1}H2

Exf1W(x)0.

1

Bu iki kavramın nasıl birleştiğine dair tek bir açıklama görmedim.

Bilgi teorisi hakkında fazla bir şey bilmiyorum ama bu konuda düşündüğüm şey: bir bilgi teorisi kişisinin "mesajın uzunluğu" olduğunu söylediğimde beynim "sürpriz" diyor. Sürpriz 1.) rastgele ve 2.) özneldir.

Xq(X)günlükq(X)

qXppEp[-günlükp(X)]qpEp[-günlükq(X)]

“Ne kadar farklı olduklarını” düşünmek yerine, “yanlış dağılımı kullanmadan beklenen sürprizdeki artışı” düşünüyorum. Bunların hepsi logaritmanın özelliklerinden.

Ep[günlük(p(X)q(X))]=Ep[-günlükq(X)]-Ep[-günlükp(X)]0.

Düzenle

-günlük(q(x))q

Xqx0-günlük(0)=10

log

q(x)>1

XqX(x)Y=aX+bqx((yb)/a)|1/a|XlogqX(X)logqY(Y)

(XEX)2

Düzenleme 2: Görünüşe göre bunu "sürpriz" olarak düşünen tek kişi ben değilim. Gönderen burada :

yθ2log{p(yθ)}


1
log(q(x))q

1
TT(X)=aXa0TT(x)xT(x)xlogqT(X)(T(x))>logqX(x)

(X-E[X])2
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.