Neden ortalama kare hatası ampirik dağılım ve Gauss modeliyle çapraz entropidir?


28

5.5 yılında, Derin Öğrenme (Ian Goodfellow, Yoshua Bengio ve Aaron Courville tarafından),

Olumsuz bir log olasılığından oluşan herhangi bir kayıp, eğitim seti tarafından belirlenen ampirik dağılım ile model tarafından tanımlanan olasılık dağılımı arasındaki çapraz entropidir. Örneğin, ortalama kare hatası, ampirik dağılım ve bir Gauss modeliyle çapraz entropidir.

Neden eşdeğer olduklarını ve yazarların bu noktada genişlemediğini anlayamıyorum.

Yanıtlar:


32

Verilerin olmasına izin verin . Ampirik dağılım için F ( x ) yazınız . Tanım olarak, herhangi bir işlev için f ,x=(x1,,xn)F(x)f

EF(x)[f(X)]=1ni=1nf(xi).

modelinin e f ( x ) yoğunluğuna sahip olmasına izin verin, burada f modelin desteğinde tanımlanır. Çapraz entropi arasında F ( x ) ve M olarak tanımlanırMef(x)fF(x)M

(1)H(F(x),M)=EF(x)[log(ef(X)]=EF(x)[f(X)]=1ni=1nf(xi).

basit rastgele bir örnek olduğunu varsayarsak , negatif log olasılığıx

(2)log(L(x))=logi=1nef(xi)=i=1nf(xi)

logaritma özellikleri sayesinde (ürünleri toplamlara çevirir). İfade , n kez sabit bir ifadedir ( 1 ) . Kayıp fonksiyonları, istatistiklerde sadece bunları karşılaştırarak kullanıldığından, birinin (pozitif) diğerinin sabit süreleri olduğu fark etmez. Bu anlamda, negatif kütük olasılığı "teklifte" çapraz entropi "dir.(2)n(1)


Teklifin ikinci iddiasını haklı çıkarmak biraz daha fazla hayal gücü gerektirir. Kare hata ile bağlantı için değerleri tahmin eden bir "Gauss model" için, açıktır noktası olarak x , değeri f böyle bir noktadap(x)xf

f(x;p,σ)=12(log(2πσ2)+(xp(x))2σ2),

kare hatası ancak 1 / ( 2 σ 2 ) ile yeniden ölçeklendi ve σ fonksiyonu ile kaydırıldı . Teklifi doğru yapmanın bir yolu , "model" in σ bölümünü dikkate almadığını varsaymaktır - σ bir şekilde veriden bağımsız olarak belirlenmelidir. Bu durumda farklılıkları ortalama kare hatalarını arasında orantılı farklılıkları dolayısıyla modeli uydurma amaçlı her üç eşdeğer hale çapraz Entropilerin veya log-likelihoods arasında.(xp(x))2 1/(2σ2)σσσ

(Normalde, , modelleme sürecinin bir parçası olarak uygundur, bu durumda fiyat teklifi doğru olmaz.)σ=σ(x)


1
g()f()F()σ2ki=1n(xip(xi))212log[i=1n(xip(xi))2]+h(k)

Ff

Merhaba, bunun yalnızca doğrusal dağılıma uygulandığını düşünüyorum. Doğrusal olmayan dağıtım problemlerinde, MSE'yi hala maliyet fonksiyonu olarak kullanabileceğimizi düşünüyorum.
Lion Lai

5

Derin Öğrenme kitabının okuyucuları için, yazarların ifadelerini bölüm 5.5.1'deki, yani Örnek: Maksimum Olabilirlik Olarak Doğrusal Regresyon 'da açıkladıkları mükemmel kabul edilmiş cevaba eklemek istiyorum .

Burada, kabul edilen cevapta belirtilen kısıtlamaları tam olarak sıralarlar:

p(y|x)=N(y;y^(x;w),σ2)y^(x;w)σ2

p(y|x)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.