Eşdeğerliği daha kesin olarak söylemek gerekirse:
Bir kare hata kaybını en aza indirmek için model ağırlıklarını en aza indirgemek için L2 düzenlileştirmesi, Bayes kuralı kullanılarak önceden değerlendirilmiş ve önceden sıfır ortalama bağımsız Gauss ağırlıkları bulunan en muhtemel ağırlıkları bulmakla eşdeğerdir
Kanıt:
Yukarıda açıklandığı gibi kayıp fonksiyonu
L=[∑n=1N(y(n)−fw(x(n)))2]Originallossfunction+λ∑i=1Kw2iL2loss
Çok değişkenli bir Gauss dağılımının
N(x;μ,Σ)=1(2π)D/2|Σ|1/2exp(−12(x−μ)⊤Σ−1(x−μ))
Bayes kuralını kullanarak buna sahibiz.
p(w|D)=p(D|w)p(w)p(D)∝p(D|w)p(w)∝[∏nNN(y(n);fw(x(n)),σ2y)]N(w;0,σ2wI)∝∏nNN(y(n);fw(x(n)),σ2y)∏i=1KN(wi;0,σ2w)
Çok boyutlu Guassian'ı bir ürüne ayırabildiğimiz yerde, çünkü kovaryans kimlik matrisinin bir katıdır.
Negatif günlük olasılığını alın
−log[p(w|D)]=−∑n=1Nlog[N(y(n);fw(x(n)),σ2y)]−∑i=1Klog[N(wi;0,σ2w)]+const.=12σ2y∑n=1N(y(n)−fw(x(n)))2+12σ2w∑i=1Kw2i+const.
Elbette sabiti düşürebilir ve kayıp fonksiyonunu temelden etkilemeden herhangi bir miktarla çarpabiliriz. (sabit hiçbir şey yapmaz, çarpma öğrenme oranını etkili bir şekilde ölçeklendirir. Minima'nın yerini etkilemeyecektir) Bu nedenle, posterior dağılımın negatif log olasılığının L2 düzenli kare hata kaybı fonksiyonuna eşdeğer bir kayıp fonksiyonu olduğunu görebiliriz.
Bu eşitlik geneldir ve ağırlıkların herhangi bir parametrelenmiş fonksiyonu için geçerlidir - yukarıda belirtildiği gibi sadece lineer regresyon değil.
D dimension
lineer regresyon durumda, olabilirbeta
vesigma
açık çözümler var? PRML okuyorum ve denklem (1.67) sayfa 30'da bulunmakta ve nasıl çözüleceği hakkında hiçbir fikrim yok. Maksimum olasılıkla, biz çözmekbeta
ve daha sonrasigma
sıfıra gradyan ayarlayarak. Düzenlenmiş en küçük karede, bazı yeniden yapılandırma paramlerilambda
bilindiğinden,beta
doğrudan çözüyoruz . Doğrudan MAP çözmek Ama eğer çözme sırası nedirbeta
,sigma
? Açık bir çözümü olabilir mi yoksa yinelemeli bir süreç kullanmalı mıyız?