Sezgisel olarak, çapraz entropi neden iki olasılık dağılımının mesafesinin bir ölçüsüdür?


11

İki ve ayrı dağılımı için , çapraz entropi şu şekilde tanımlanır:qpq

'H(p,q)=-Σxp(x)günlükq(x).

Bunun neden iki olasılık dağılımı arasındaki mesafenin sezgisel bir ölçüsü olacağını merak ediyorum?

Bunu görmek entropisidir , tedbirleri "sürpriz" . , kısmen yerini ölçüsüdür ile . Hala tanımın ardındaki sezgisel anlamı anlamıyorum.p p H ( p , q ) p q'H(p,p)pp'H(p,q)pq


1
Metriğin (ve mesafenin) matematiksel tanımına bakmanızı öneririm. genellikle, bu özelliklerin izlenmesi bir işlevin bir mesafe olması için izlemesi gereken en düşük şeydir. Umarım yardımcı olur. Bu gibi görünse de . Sezgisel olarak, KL diverjansının bir parçası olduğu için, entropi p tarafından dengelenen p ve q'nun diverjansını varsayıyorum. Yine de, bu sadece bir tahmin. Ayrıca, diverjans bir metrik / mesafe değildir, bu yüzden Çapraz Entropi ise şaşırırdım. 'H(p,q)='H(p)+DKL(p||q)
Charlie Parker

Sonra Kullback_leibler ıraksamasının anlaşılması çapraz entropinin anlaşılmasına yardımcı olur: stats.stackexchange.com/questions/188903/…
kjetil b halvorsen

1
KL Divergence'i açık ve basit bir şekilde açıklayan harika bir video: youtube.com/watch?v=ErfnhcEV1O8
Katherine Chen

Bu "Çapraz Entropinin Arkasındaki Sezgi" nin yardımcı olup olmadığına bakın: medium.com/@siddharth.4oct/…
Siddharth Roy

Yanıtlar:


6

Çapraz entropinin en aza indirilmesi genellikle p'nin gerçek dağılım ve q'nun öğrenilen dağıtım olduğu üretken modellerde bir öğrenme hedefi olarak kullanılır.

P ve q'nun çapraz entropisi p'nin entropisine artı p ve q arasındaki KL sapmasına eşittir.

'H(p,q)='H(p)+DKL(p||q)

sabit olarak düşünebilirsiniz, çünkü p doğrudan eğitim verilerinden gelir ve model tarafından öğrenilmez. Bu nedenle, sadece KL ıraksama terimi önemlidir. Olasılık dağılımları arasındaki bir mesafe olarak KL sapmasının motivasyonu, yaklaşık olarak q yerine p dağılımını kullanarak kaç bilgi bitinin elde edildiğini söylemesidir.'H(p)p

KL sapmasının uygun bir mesafe metriği olmadığını unutmayın. Birincisi, p ve q'da simetrik değildir. Olasılık dağılımları için bir mesafe metriğine ihtiyacınız varsa, başka bir şey kullanmanız gerekecektir. Ancak, "distance" kelimesini gayri resmi olarak kullanıyorsanız KL diverjansını kullanabilirsiniz.


1
p'yi neden bir sabit olarak düşünebilirsiniz? Ne öğreniyorsun"? q? Orijinal soru öğrenme hakkında bir şey söylemedi, bu yüzden ne demek istediğini daha iyi anlamak istiyorum :)
Charlie Parker

2
daha açık hale getirmek için düzenledi. p eğitim verilerinden gelen dağılımdır ve q model tarafından öğrenilir.
Aaron
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.