Eşdeğerliği daha kesin olarak söylemek gerekirse:
Bir kare hata kaybını en aza indirmek için model ağırlıklarını en aza indirgemek için L2 düzenlileştirmesi, Bayes kuralı kullanılarak önceden değerlendirilmiş ve önceden sıfır ortalama bağımsız Gauss ağırlıkları bulunan en muhtemel ağırlıkları bulmakla eşdeğerdir
Kanıt:
Yukarıda açıklandığı gibi kayıp fonksiyonu
L=[∑n=1N(y(n)−fw(x(n)))2]Originallossfunction+λ∑i=1Kw2iL2loss
Çok değişkenli bir Gauss dağılımının
N(x;μ,Σ)=1(2π)D/2|Σ|1/2exp(−12(x−μ)⊤Σ−1(x−μ))
Bayes kuralını kullanarak buna sahibiz.
p(w|D)=p(D|w)p(w)p(D)∝p(D|w)p(w)∝[∏nNN(y(n);fw(x(n)),σ2y)]N(w;0,σ2wI)∝∏nNN(y(n);fw(x(n)),σ2y)∏i=1KN(wi;0,σ2w)
Çok boyutlu Guassian'ı bir ürüne ayırabildiğimiz yerde, çünkü kovaryans kimlik matrisinin bir katıdır.
Negatif günlük olasılığını alın
−log[p(w|D)]=−∑n=1Nlog[N(y(n);fw(x(n)),σ2y)]−∑i=1Klog[N(wi;0,σ2w)]+const.=12σ2y∑n=1N(y(n)−fw(x(n)))2+12σ2w∑i=1Kw2i+const.
Elbette sabiti düşürebilir ve kayıp fonksiyonunu temelden etkilemeden herhangi bir miktarla çarpabiliriz. (sabit hiçbir şey yapmaz, çarpma öğrenme oranını etkili bir şekilde ölçeklendirir. Minima'nın yerini etkilemeyecektir) Bu nedenle, posterior dağılımın negatif log olasılığının L2 düzenli kare hata kaybı fonksiyonuna eşdeğer bir kayıp fonksiyonu olduğunu görebiliriz.
Bu eşitlik geneldir ve ağırlıkların herhangi bir parametrelenmiş fonksiyonu için geçerlidir - yukarıda belirtildiği gibi sadece lineer regresyon değil.
D dimensionlineer regresyon durumda, olabilirbetavesigmaaçık çözümler var? PRML okuyorum ve denklem (1.67) sayfa 30'da bulunmakta ve nasıl çözüleceği hakkında hiçbir fikrim yok. Maksimum olasılıkla, biz çözmekbetave daha sonrasigmasıfıra gradyan ayarlayarak. Düzenlenmiş en küçük karede, bazı yeniden yapılandırma paramlerilambdabilindiğinden,betadoğrudan çözüyoruz . Doğrudan MAP çözmek Ama eğer çözme sırası nedirbeta,sigma? Açık bir çözümü olabilir mi yoksa yinelemeli bir süreç kullanmalı mıyız?