Çapraz entropinin en aza indirilmesi genellikle p'nin gerçek dağılım ve q'nun öğrenilen dağıtım olduğu üretken modellerde bir öğrenme hedefi olarak kullanılır.
P ve q'nun çapraz entropisi p'nin entropisine artı p ve q arasındaki KL sapmasına eşittir.
'H( p , q) = H( p ) + DKL( p | | q)
sabit olarak düşünebilirsiniz, çünkü p doğrudan eğitim verilerinden gelir ve model tarafından öğrenilmez. Bu nedenle, sadece KL ıraksama terimi önemlidir. Olasılık dağılımları arasındaki bir mesafe olarak KL sapmasının motivasyonu, yaklaşık olarak q yerine p dağılımını kullanarak kaç bilgi bitinin elde edildiğini söylemesidir.'H( p )p
KL sapmasının uygun bir mesafe metriği olmadığını unutmayın. Birincisi, p ve q'da simetrik değildir. Olasılık dağılımları için bir mesafe metriğine ihtiyacınız varsa, başka bir şey kullanmanız gerekecektir. Ancak, "distance" kelimesini gayri resmi olarak kullanıyorsanız KL diverjansını kullanabilirsiniz.