Verilerin olmasına izin verin . Ampirik dağılım için F ( x ) yazınız . Tanım olarak, herhangi bir işlev için f ,x =( x1, … , Xn)F( x )f
EF(x)[f(X)]=1n∑i=1nf(xi).
modelinin e f ( x ) yoğunluğuna sahip olmasına izin verin, burada f modelin desteğinde tanımlanır. Çapraz entropi arasında F ( x ) ve M olarak tanımlanırMef(x)fF(x)M
H(F(x),M)=−EF(x)[log(ef(X)]=−EF(x)[f(X)]=−1n∑i=1nf(xi).(1)
basit rastgele bir örnek olduğunu varsayarsak , negatif log olasılığıx
−log(L(x))=−log∏i=1nef(xi)=−∑i=1nf(xi)(2)
logaritma özellikleri sayesinde (ürünleri toplamlara çevirir). İfade , n kez sabit bir ifadedir ( 1 ) . Kayıp fonksiyonları, istatistiklerde sadece bunları karşılaştırarak kullanıldığından, birinin (pozitif) diğerinin sabit süreleri olduğu fark etmez. Bu anlamda, negatif kütük olasılığı "teklifte" çapraz entropi "dir.(2)n(1)
Teklifin ikinci iddiasını haklı çıkarmak biraz daha fazla hayal gücü gerektirir. Kare hata ile bağlantı için değerleri tahmin eden bir "Gauss model" için, açıktır noktası olarak x , değeri f böyle bir noktadap(x)xf
f(x;p,σ)=−12(log(2πσ2)+(x−p(x))2σ2),
kare hatası ancak 1 / ( 2 σ 2 ) ile yeniden ölçeklendi ve σ fonksiyonu ile kaydırıldı . Teklifi doğru yapmanın bir yolu , "model" in σ bölümünü dikkate almadığını varsaymaktır - σ bir şekilde veriden bağımsız olarak belirlenmelidir. Bu durumda farklılıkları ortalama kare hatalarını arasında orantılı farklılıkları dolayısıyla modeli uydurma amaçlı her üç eşdeğer hale çapraz Entropilerin veya log-likelihoods arasında.(x−p(x))2 1/(2σ2)σσσ
(Normalde, , modelleme sürecinin bir parçası olarak uygundur, bu durumda fiyat teklifi doğru olmaz.)σ=σ(x)