Kullback-Leibler diverjansının analizi


18

Aşağıdaki iki olasılık dağılımını ele alalım

P       Q
0.01    0.002
0.02    0.004
0.03    0.006
0.04    0.008
0.05    0.01
0.06    0.012
0.07    0.014
0.08    0.016
0.64    0.928

eşit olan Kullback-Leibler ıraksamasını , genel olarak bu sayı bana ne gösteriyor? Genel olarak, Kullback-Leibler ıraksaması bana, birinin olasılık dağılımının diğerinden ne kadar uzak olduğunu gösterir, değil mi? Entropi terminolojisine benzer, ancak sayılar açısından ne anlama geliyor? 0.49 sonucunun bir sonucuna sahipsem, yaklaşık bir dağılımın diğerinden% 50 uzakta olduğunu söyleyebilir miyim?0.492820258


Tartışma bakın burada biraz yardım olabilen.
Glen_b

Wikipedia makalesini okudun mu?
Neil G

Yanıtlar:


43

Kullback-Leibler Diverjans, simetrik olmadığı ve ayrıca üçgen eşitsizliğini tatmin etmediği için metrik bir uygun değildir. Dolayısıyla, iki dağıtımın oynadığı "roller" farklıdır ve bu rolleri incelenen gerçek dünya fenomenine göre dağıtmak önemlidir.

Yazdığımızda (OP ifadeyi base-2 logaritmalarını kullanarak hesapladı)

K(P||Q)=ilog2(pi/qi)pi

düşündüğümüz dağıtım biz kullanarak yaklaşır, (genellikle doğru dağılımını olarak kabul) "hedef dağılımı" olarak Q dağılımını.PQ

Şimdi,

ilog2(pi/qi)pi=ilog2(pi)piilog2(qi)pi=H(P)EP(ln(Q))

buradaki , P ve - E P ( ln ( Q ) ) dağılımının Shannon entropisidir. " P ve Q çapraz entropisi" olarak da adlandırılır -simetrik değildir.H(P)PEP(ln(Q))PQ

yazı

K(P||Q)=H(P,Q)H(P)

(burada da, çapraz entropi konularının ifadesinde dağılımları yazdığımız sıra, aynı zamanda simetrik olmadığı için) KL-Divergence'in kaçınılmaz dağıtım entropisi üzerindeki entropi artışını yansıttığını görmemize izin verir. .P

Yani, hiçbir KL-sapma iyidir değil dağılımları arasında bir "mesafe ölçüsü" olarak yorumlanır, daha ziyade olarak gereken entropi artışının bir ölçüsü nedeniyle gerçek dağıtım ziyade gerçek dağılımına kendisine bir yaklaşım kullanımına .

Bilgi Teorisi topraklarındayız. Ustalardan duymak (Cover & Thomas) "

... rastgele değişkenin gerçek dağılımını bilseydik, ortalama açıklama uzunluğu H ( P ) olan bir kod oluşturabilirdik . Bunun yerine, bir Q dağılımı için kodu kullanırsak , rastgele değişkeni tanımlamak için ortalamada H ( P ) + K ( P | | Q ) bitlerine ihtiyacımız olurdu .P'H(P)SH(P)+K(P||Q)

Aynı bilge insanlar

... simetrik olmadığı ve üçgen eşitsizliğini karşılamadığı için dağılımlar arasında gerçek bir mesafe değildir. Bununla birlikte, göreceli entropiyi dağılımlar arasında bir “mesafe” olarak düşünmek genellikle yararlıdır.

Ancak bu ikinci yaklaşım, esas olarak, bazı tahmin prosedürlerini optimize etmek için KL ayrışmasını en aza indirmeye çalıştığında yararlıdır . Sayısal değerinin kendi başına yorumlanması için yararlı değildir ve kişi "entropi artışı" yaklaşımını tercih etmelidir.

Sorunun spesifik dağılımları için (her zaman base-2 logaritmalarını kullanarak)

K(P||Q)=0.49282,H(P)=1.9486

Başka bir deyişle, gerçek dağılım P iken kullanacaksanız, durumu tanımlamak için% 25 daha fazla bite ihtiyacınız vardır . Bu, daha uzun kod satırları, bunları yazmak için daha fazla zaman, daha fazla bellek, daha fazla okuma zamanı, daha yüksek hata olasılığı vb. Anlamına gelir ... Cover & Thomas'ın KL-Divergence (veya "göreceli entropi") " yaklaşıklığın neden olduğu verimsizliği ölçer . "SP


Son derece kullanışlı ve bilgilendirici cevap.
MadHatter

1

KL Divergence, Q'dan semboller kullanarak P'den bir sembolü temsil etmek için gereken bilgi kaybını ölçer. 0,49 değerine sahipseniz, ortalama olarak P'den iki sembolü Q'dan iki karşılık gelen sembolle artı bir ek bilgi kodlayabileceğiniz anlamına gelir. .


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.