Birim Gaussian ile KL Kaybı

10

Bir VAE uyguluyorum ve basitleştirilmiş tek değişkenli gauss KL sapmasının çevrimiçi olarak iki farklı uygulamasını fark ettim. Uygun olarak, orijinal diverjans burada bir bir birim gaussian olduğunu varsayarsak, ve , bu İşte karışıklığım burada. Yukarıdaki uygulama ile birkaç belirsiz github depoları bulmuş olmama rağmen, daha yaygın olarak kullandığım şey:

K L_{l o s s} = \log (\frac{σ_{2}}{σ_{1}}) + \frac{σ_{1}^{2} + (μ_{1} - μ_{2})^{2}}{2 σ_{2}^{2}} - \frac{1}{2}

$KL_{loss}=\log(\frac{\sigma_2}{\sigma_1})+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma^2_2}-\frac{1}{2}$

μ_{2} = 0

$\mu_2=0$

σ_{2} = 1

$\sigma_2=1$

K L_{l o s s} = - \log (σ_{1}) + \frac{σ_{1}^{2} + μ_{1}^{2}}{2} - \frac{1}{2}

$KL_{loss}=-\log(\sigma_1)+\frac{\sigma_1^2+\mu_1^2}{2}-\frac{1}{2}$

K L_{l o s s} = - \frac{1}{2} (2 \log (σ_{1}) - σ_{1}^{2} - μ_{1}^{2} + 1)

$KL_{loss}=-\frac{1}{2}(2\log(\sigma_1)-\sigma_1^2-\mu_1^2+1)$

= - \frac{1}{2} (\log (σ_{1}) - σ_{1} - μ_{1}^{2} + 1)

$=-\frac{1}{2}(\log(\sigma_1)-\sigma_1-\mu^2_1+1)$ Örneğin resmi Keras otomatik kodlayıcı eğitiminde . Benim sorum şu, bu ikisi arasında ne eksik? Temel fark log teriminde 2 faktörünü düşürmek ve varyansı kareye almamaktır. Analitik olarak ikincisini başarı ile kullandım, ne için. Herhangi bir yardım için şimdiden teşekkürler!

— groovyDragon
kaynak

7

Bildirim o değiştirerek ile Kurtarmak son denklemde önceki (yani ). İlk durumda kodlayıcının varyansı tahmin etmek için kullanıldığını, ikincisinde ise standart sapmayı tahmin etmek için kullanıldığını düşünmeye yönlendirdim. $\sigma_1$ $\sigma_1^2$ $\log(\sigma_1) - \sigma_1 \rightarrow 2\log(\sigma_1) - \sigma_1^2$

Her iki formülasyon da eşdeğerdir ve amaç değişmez.

— F. Evlangeli
kaynak

Bunların eşdeğer olduğunu düşünmüyorum. Evet, her ikisi de sıfır ve birim için simge durumuna küçültülür . Bununla birlikte, orijinal denklemde (varyansı içeren), uzaklaştırmanın cezası , ikinci denklemden (standart sapmaya dayanarak) çok daha büyüktür. varyasyonların cezası her ikisi için de aynıdır ve yeniden yapılandırma hatası aynı olacaktır, bu nedenle ikinci sürümü kullanmak birlikten ayrılmasının göreceli önemini önemli ölçüde değiştirir . Neyi kaçırıyorum?

μ

$\mu$

σ

$\sigma$

σ

$\sigma$

μ

$\mu$

σ

$\sigma$

— TheBamf

0

Cevabın daha basit olduğuna inanıyorum. VAE'de insanlar genellikle varyans yerine kovaryans matrisi olan çok değişkenli bir normal dağılım kullanır . Bu, bir kod parçasında kafa karıştırıcı görünüyor, ancak istenen forma sahip. $\Sigma$ $\sigma^2$

Burada çok değişkenli normal dağılımlar için KL diverjansının türetilmesini bulabilirsiniz: VAE'ler için KL diverjans kaybının türetilmesi

— Dmitry Grebenyuk
kaynak