Neden ortalama kare hatası ampirik dağılım ve Gauss modeliyle çapraz entropidir?

28

5.5 yılında, Derin Öğrenme (Ian Goodfellow, Yoshua Bengio ve Aaron Courville tarafından),

Olumsuz bir log olasılığından oluşan herhangi bir kayıp, eğitim seti tarafından belirlenen ampirik dağılım ile model tarafından tanımlanan olasılık dağılımı arasındaki çapraz entropidir. Örneğin, ortalama kare hatası, ampirik dağılım ve bir Gauss modeliyle çapraz entropidir.

Neden eşdeğer olduklarını ve yazarların bu noktada genişlemediğini anlayamıyorum.

machine-learning normal-distribution cross-entropy

— Mufei Li
kaynak

32

Verilerin olmasına izin verin . Ampirik dağılım için yazınız . Tanım olarak, herhangi bir işlev için , $\mathbf{x}=(x_1, \ldots, x_n)$ $F(\mathbf{x})$ $f$

E_{F (x)} [f (X)] = \frac{1}{n} \sum_{i = 1}^{n} f (x_{i}) .

$\mathbb{E}_{F(\mathbf{x})}[f(X)] = \frac{1}{n}\sum_{i=1}^n f(x_i).$

modelinin yoğunluğuna sahip olmasına izin verin, burada modelin desteğinde tanımlanır. Çapraz entropi arasında ve olarak tanımlanır $M$ $e^{f(x)}$ $f$ $F(\mathbf{x})$ $M$

\begin{matrix} (1) & H (F (x), M) = - E_{F (x)} [\log (e^{f (X)}] = - E_{F (x)} [f (X)] = - \frac{1}{n} \sum_{i = 1}^{n} f (x_{i}) . \end{matrix}

$H(F(\mathbf{x}), M) = -\mathbb{E}_{F(\mathbf{x})}[\log(e^{f(X)}] = -\mathbb{E}_{F(\mathbf{x})}[f(X)] =-\frac{1}{n}\sum_{i=1}^n f(x_i).\tag{1}$

basit rastgele bir örnek olduğunu varsayarsak , negatif log olasılığı $x$

\begin{matrix} (2) & - \log (L (x)) = - \log \prod_{i = 1}^{n} e^{f (x_{i})} = - \sum_{i = 1}^{n} f (x_{i}) \end{matrix}

$-\log(L(\mathbf{x}))=-\log \prod_{i=1}^n e^{f(x_i)} = -\sum_{i=1}^n f(x_i)\tag{2}$

logaritma özellikleri sayesinde (ürünleri toplamlara çevirir). İfade , kez sabit bir ifadedir . Kayıp fonksiyonları, istatistiklerde sadece bunları karşılaştırarak kullanıldığından, birinin (pozitif) diğerinin sabit süreleri olduğu fark etmez. Bu anlamda, negatif kütük olasılığı "teklifte" çapraz entropi "dir. $(2)$ $n$ $(1)$

Teklifin ikinci iddiasını haklı çıkarmak biraz daha fazla hayal gücü gerektirir. Kare hata ile bağlantı için değerleri tahmin eden bir "Gauss model" için, açıktır noktası olarak , değeri böyle bir noktada $p(x)$ $x$ $f$

f (x; p, σ) = - \frac{1}{2} (\log (2 π σ^{2}) + \frac{(x - p (x))^{2}}{σ^{2}}),

$f(x; p, \sigma) = -\frac{1}{2}\left(\log(2\pi \sigma^2) + \frac{(x-p(x))^2}{\sigma^2}\right),$

kare hatası ancak ile yeniden ölçeklendi ve fonksiyonu ile kaydırıldı . Teklifi doğru yapmanın bir yolu , "model" in bölümünü dikkate almadığını varsaymaktır - şekilde veriden bağımsız olarak belirlenmelidir. Bu durumda farklılıkları ortalama kare hatalarını arasında orantılı farklılıkları dolayısıyla modeli uydurma amaçlı her üç eşdeğer hale çapraz Entropilerin veya log-likelihoods arasında. $(x-p(x))^2$ $1/(2\sigma^2)$ $\sigma$ $\sigma$ $\sigma$

(Normalde, , modelleme sürecinin bir parçası olarak uygundur, bu durumda fiyat teklifi doğru olmaz.) $\sigma = \sigma(x)$

— whuber
kaynak

1

g ()

$g ()$

f ()

$f ()$

F ()

$F ()$

σ^{2}

$\sigma^2$

k \sum_{i = 1}^{n} {(x_{i} - p (x_{i}))}^{2}

$k\sum_{i=1}^n \left (x_i - p (x_i)\right)^2$

- \frac{1}{2} \log [\sum_{i = 1}^{n} {(x_{i} - p (x_{i}))}^{2}] + h (k)

$-\frac {1}{2}\log\left [\sum_{i=1}^n \left (x_i - p (x_i)\right)^2\right] +h(k)$

F

$F$

f

$f$

Merhaba, bunun yalnızca doğrusal dağılıma uygulandığını düşünüyorum. Doğrusal olmayan dağıtım problemlerinde, MSE'yi hala maliyet fonksiyonu olarak kullanabileceğimizi düşünüyorum.

— Lion Lai

5

Derin Öğrenme kitabının okuyucuları için, yazarların ifadelerini bölüm 5.5.1'deki, yani Örnek: Maksimum Olabilirlik Olarak Doğrusal Regresyon 'da açıkladıkları mükemmel kabul edilmiş cevaba eklemek istiyorum .

Burada, kabul edilen cevapta belirtilen kısıtlamaları tam olarak sıralarlar:

$p(y | x) = \mathcal{N}\big(y; \hat{y}(x; w), \sigma^2\big)$ $\hat{y}(x; w)$ $\sigma^2$

$p(y|x)$

— Kilian Batzner
kaynak