KL ayrımı, iki olasılık dağılımı arasındaki farkı ölçmenin doğal bir yoludur. Entropi bir dağılımı p kayıpsız kodlama etkinlik çekilen için (ortalama) tabi mesaj başına bit minimum sayısını verir p . Bu sınırın elde edilmesi, daha yüksek olasılık olaylarına daha kısa kod kelimeleri atayan, p için tasarlanmış optimal bir kod kullanılmasını gerektirir . D K L ( s ∥ q ) beklenen sayısı olarak yorumlanabilir ilave doğru dağıtım çekilen kodlama etkinlikler için gerekli mesaj başına bit p'H( p )pppDKL( p ∥ q)pp dağıtım yerine için en uygun kodu kullanıyorsanız . Dağılımları karşılaştırmak için bazı güzel özelliklere sahiptir. Örneğin, eğer p ve qqppq eşitse, KL sapması 0'dır.
Çapraz entropi doğru dağıtım çekilen kodlama olaylara (ortalama) gerekli mesaj başına bit sayısı olarak yorumlanabilir p dağılımı için optimal bir kodu kullanarak, eğer, q . Farkı not edin: D K L ( p ∥ q ) , mesaj başına ortalama ekstra bit sayısını, H ( p , q ) mesaj başına ortalama toplam bit sayısını ölçer . Sabit p için , H ('H( p , q)pqDKL( p ∥ q)'H( p , q)pq , p'den giderek daha farklı hale geldikçebüyür. Fakat eğer p sabit tutulmazsa, H'yi ( p , q ) farkın mutlak bir ölçüsü olarakyorumlamak zordur, çünkü p'nin entropisi ile büyür.'H( p , q)qpp'H( p , q)p
KL sapması ve çapraz entropi şöyledir:
DKL( p ∥ q) = H( p , q) - H( p )
Bu ifadeden, ve q eşit olduğunda, çapraz entropinin sıfır olmadığını; aksine, p'nin entropisine eşittir .pqp
Çapraz entropi genellikle makine öğreniminde kayıp fonksiyonlarında görülür. Bu durumların çoğunda, 'doğru' dağıtım, q ise optimize etmeye çalıştığımız model olarak kabul edilir. Örneğin, sınıflandırma problemlerinde, yaygın olarak kullanılan çapraz entropi kaybı (aka log kaybı ), ampirik dağılım arasındaki çapraz entropiyi ölçer.pq etiketlerin (girdiler verilen) ve sınıflandırıcı tarafından öngörülen . Her veri noktası için ampirik dağılım, basitçe o veri noktası sınıfına 1 ve diğer tüm sınıflara 0 atar. Not: Bu durumda, çapraz entropi, negatif kütük olabilirliği ile orantılı olduğu ortaya çıkar, bu nedenle onu en aza indirmek, olasılığı en üst düzeye çıkarmakla eşdeğerdir.
Not (bu örnekte ampirik dağılım) sabittir. Dolayısıyla, ampirik dağılım ile öngörülen dağılım arasındaki KL ayrışmasını en aza indirdiğimizi söylemek eşdeğer olacaktır. Yukarıdaki ifadede görebileceğimiz gibi, ikisi H ( p ) ek terimiyle ( ampirik dağılımın entropisi ) ilişkilidir . Çünkü s sabittir, H ( p )p'H( p )p'H( p )Modelin parametreleriyle değişmez ve kayıp fonksiyonunda göz ardı edilebilir. Teorik / felsefi nedenlerle KL ayrıntısı hakkında konuşmak isteyebiliriz, ancak bu durumda, optimizasyon problemini çözme perspektifinden eşdeğerdirler. Bu, değişebileceği diğer çapraz entropi ve KL sapma kullanımları için doğru olmayabilir.p
pqDKL( p ∥ q)pqj | ipj | i Kullback-Leibler ayrışmasıdır (bu durumda bir katkı sabitine kadar çapraz entropiye eşittir). "
van der Maaten ve Hinton (2008) . T-SNE kullanarak verileri görselleştirme.