Kullback-Leibler Diverjans, simetrik olmadığı ve ayrıca üçgen eşitsizliğini tatmin etmediği için metrik bir uygun değildir. Dolayısıyla, iki dağıtımın oynadığı "roller" farklıdır ve bu rolleri incelenen gerçek dünya fenomenine göre dağıtmak önemlidir.
Yazdığımızda (OP ifadeyi base-2 logaritmalarını kullanarak hesapladı)
K(P||Q)=∑ilog2(pi/qi)pi
düşündüğümüz dağıtım biz kullanarak yaklaşır, (genellikle doğru dağılımını olarak kabul) "hedef dağılımı" olarak Q dağılımını.PQ
Şimdi,
∑ilog2(pi/qi)pi=∑ilog2(pi)pi−∑ilog2(qi)pi=−H(P)−EP(ln(Q))
buradaki , P ve - E P ( ln ( Q ) ) dağılımının Shannon entropisidir. " P ve Q çapraz entropisi" olarak da adlandırılır -simetrik değildir.H(P)P−EP(ln(Q))PQ
yazı
K(P||Q)=H(P,Q)−H(P)
(burada da, çapraz entropi konularının ifadesinde dağılımları yazdığımız sıra, aynı zamanda simetrik olmadığı için) KL-Divergence'in kaçınılmaz dağıtım entropisi üzerindeki entropi artışını yansıttığını görmemize izin verir. .P
Yani, hiçbir KL-sapma iyidir değil dağılımları arasında bir "mesafe ölçüsü" olarak yorumlanır, daha ziyade olarak gereken entropi artışının bir ölçüsü nedeniyle gerçek dağıtım ziyade gerçek dağılımına kendisine bir yaklaşım kullanımına .
Bilgi Teorisi topraklarındayız. Ustalardan duymak (Cover & Thomas) "
... rastgele değişkenin gerçek dağılımını bilseydik, ortalama açıklama uzunluğu H ( P ) olan bir kod oluşturabilirdik . Bunun yerine, bir Q dağılımı için kodu kullanırsak , rastgele değişkeni tanımlamak için ortalamada H ( P ) + K ( P | | Q ) bitlerine ihtiyacımız olurdu .P'H( P)S'H( P) + K ( P||Q)
Aynı bilge insanlar
... simetrik olmadığı ve üçgen eşitsizliğini karşılamadığı için dağılımlar arasında gerçek bir mesafe değildir. Bununla birlikte, göreceli entropiyi dağılımlar arasında bir “mesafe” olarak düşünmek genellikle yararlıdır.
Ancak bu ikinci yaklaşım, esas olarak, bazı tahmin prosedürlerini optimize etmek için KL ayrışmasını en aza indirmeye çalıştığında yararlıdır . Sayısal değerinin kendi başına yorumlanması için yararlı değildir ve kişi "entropi artışı" yaklaşımını tercih etmelidir.
Sorunun spesifik dağılımları için (her zaman base-2 logaritmalarını kullanarak)
K(P||Q)=0.49282,H(P)=1.9486
Başka bir deyişle, gerçek dağılım P iken kullanacaksanız, durumu tanımlamak için% 25 daha fazla bite ihtiyacınız vardır . Bu, daha uzun kod satırları, bunları yazmak için daha fazla zaman, daha fazla bellek, daha fazla okuma zamanı, daha yüksek hata olasılığı vb. Anlamına gelir ... Cover & Thomas'ın KL-Divergence (veya "göreceli entropi") " yaklaşıklığın neden olduğu verimsizliği ölçer . "SP