L2 düzenlenmesi Gaussian Prior’in eşdeğeridir


56

Bunu okumaya devam ediyorum ve sezgisel olarak bunu görebiliyorum, ancak L2 düzenlileşmesinden analitik olarak bunun bir Gauss Öncesi olduğunu söylemeye nasıl geçilir? Aynı şey, L1'in daha önce bir Laplacean'a eşdeğer olduğunu söylemek için de geçerli.

Diğer referanslar çok iyi olurdu.

Yanıtlar:


54

Gözlemlenen bazı girdi-çıktı çiftlerinden parametrenin . Çıktıların üzerinden girdilerle doğrusal olarak ilişkili olduğunu ve verilerin bir miktar tarafından bozulduğunu varsayalım :β(x1,y1),(xN,yN)βϵ

yn=βxn+ϵ,

burada , Gauss gürültüsüdür ve ortalama ve varyansı . Bu, Gauss olasılığını doğurur:ϵ0σ2

n=1NN(yn|βxn,σ2).

parametresini düzenleyelim , Gaussian önceki düzenleyerek burada kesinlikle pozitif bir skalerdir. Dolayısıyla, olasılık ve önceliği birleştirerek basitçe sahip olduk:βN(β|0,λ1),λ

n=1NN(yn|βxn,σ2)N(β|0,λ1).

Yukarıdaki ifadenin logaritmasını alalım. Bazı sabitleri düşürerek elde ederiz:

n=1N1σ2(ynβxn)2λβ2+const.

Biz ile ilgili olarak yukarıda ifade en üst düzeye çıkarmak , böylece maksimum a-sonradan tahmin denilen olsun kısa veya MAP tahmin. Bu ifadede, önceki Gaussian'ın neden L2 düzenlileştirme terimi olarak yorumlanabileceği açıkça ortaya çıkıyor.ββ


Benzer şekilde, L1 normu ve daha önce Laplace arasındaki ilişki de aynı şekilde anlaşılabilir. Önce bir Gaussian yerine, bir Laplace önce onu sizin olasılığınızla birleştirin ve logaritmayı alın.

Her iki konunun ayrıntılarını anlatan iyi bir referans (belki de biraz ileri düzeyde), şu anda çevrimiçi olarak bulunmasının kolay olmadığı "Denetimli Öğrenme için Uyarlamalı Seyreklik" adlı kağıttır. Alternatif olarak "Jeffreys Prior'i kullanarak Adaptif Seyreklik" konusuna bakın . Bir başka iyi referans ise "Laplace önceleri ile birlikte Bayesian sınıflandırması" dır .


1
Bir de D dimensionlineer regresyon durumda, olabilir betave sigmaaçık çözümler var? PRML okuyorum ve denklem (1.67) sayfa 30'da bulunmakta ve nasıl çözüleceği hakkında hiçbir fikrim yok. Maksimum olasılıkla, biz çözmek betave daha sonra sigmasıfıra gradyan ayarlayarak. Düzenlenmiş en küçük karede, bazı yeniden yapılandırma paramleri lambdabilindiğinden, betadoğrudan çözüyoruz . Doğrudan MAP çözmek Ama eğer çözme sırası nedir beta, sigma? Açık bir çözümü olabilir mi yoksa yinelemeli bir süreç kullanmalı mıyız?
stackunderflow

Eğer bir "kare" eksik son denklemde yani ? λ β 2λβλβ2
brian.keng

@AdamO Katsayıların alabileceği değerlerin sayısını sınırlar. Öncelik, örneğin 1-10 arasındaysa, o zaman başka bir değer alma katsayısı olasılığı vardır, yani [-inf to 1] ve [10, + inf].
imsrgadich

1
Bu durumda bilinmektedir. Zaman çalışır mı bilinmemektedir? Bayesian doğrusal regresyon için, varyanstan önce bir konjugat oluşturmak için önceden bir ters gama kullanılabilir. Fakat cebirin aynı ifadeyi oluşturacağından emin değilim. σ 2σ2σ2
AdamO

11

Çok değişkenli normal önceki ve çok değişkenli normal olasılığa sahip doğrusal bir model için, arka ortalamanın (ve maksimum posteriori model) tam olarak Tikhonov normalize edilmiş ( kullanarak elde edeceğiniz bir normal değişken dağılımına sahip olursunuz. düzenli) uygun bir düzenlileştirme parametresiyle en küçük kareler. L2

Tikhonov düzenli en küçük kareler çözümünün belirli bir nokta tahmini olduğu halde, Bayesçi posteriorun olasılık dağılımında daha temel bir fark olduğuna dikkat edin.

Bu, ters problemler için Bayesian yöntemleri üzerine birçok ders kitabında tartışılmaktadır. Örneğin:

http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/

http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/

Benzer şekilde, daha önce bir Laplacian'ınız varsa ve çok değişkenli normal bir olasılığınız varsa, o zaman posterior dağılımın maksimumu düzenli en küçük kareler problemini çözerek elde edebileceğiniz bir noktada meydana gelir . L1


9

Medyan'ın L1 normunu en aza indirdiğine dair ilk bildirim ( L1 ve L2 hakkında daha fazla bilgi için buraya veya buraya bakın )

median(x)=argminsi|xis|1

ortalama L2'yi en aza indirir

mean(x)=argminsi|xis|2

Şimdi, normal dağılımlar olduğunu hatırlamak parametresi kullanılarak tahmin edilebilir anlamına numuneyi ederken, MLE tahmincisi Laplace dağılımı için parametresi medyan olduğunu. Bu yüzden Normal dağılım kullanmak L2 norm optimizasyonuna eşittir ve Laplace dağılımını kullanarak L1 optimizasyonunu kullanır. Uygulamada medyanın aykırı değerlere ortalamanınkinden daha az duyarlı olduğunu düşünebilirsiniz ve aynısı, daha önce yağlanmış kuyruklu Laplace dağılımını kullanmak, modelinizi aykırı değerlere göre normal dağılıma göre daha az eğilimli hale getirir.μμμ


Hurley, WJ (2009) İki Katlı Dağılım İçin MLE'yi Hesaplamak İçin Endüktif Bir Yaklaşım . Modern Uygulamalı İstatistiksel Yöntemler Dergisi: 8 (2), Madde 25.


Muhtemelen bu, burada verilen matematiksel olarak en katı cevap değildir, ancak L1 / L2 normalizasyonunda bir acemi için kesinlikle en kolay ve en sezgisel olanı kavramaktır.
SQLServerSteve

8

değişkenli bir regresyon problemi için (kesişmeden w / o kesişme)k

minβ(yXβ)(yXβ)

ceza ile düzenli regresyondaLp

minβ(yXβ)(yXβ)+λi=1k|βi|p

Eşit olarak yapabiliriz (işaretin değiştiğine dikkat edin)

maxβ(yXβ)(yXβ)λi=1k|βi|p

Bu doğrudan Bayesyan prensibi ile ilgilidir.

posteriorlikelihood×prior

veya eşdeğerde (düzenlilik koşulları altında)

log(posterior)log(likelihood)+log(penalty)

Şimdi hangi üstel aile dağılımının hangi ceza türüne karşılık geldiğini görmek zor değil.


3

Eşdeğerliği daha kesin olarak söylemek gerekirse:

Bir kare hata kaybını en aza indirmek için model ağırlıklarını en aza indirgemek için L2 düzenlileştirmesi, Bayes kuralı kullanılarak önceden değerlendirilmiş ve önceden sıfır ortalama bağımsız Gauss ağırlıkları bulunan en muhtemel ağırlıkları bulmakla eşdeğerdir

Kanıt:

Yukarıda açıklandığı gibi kayıp fonksiyonu

L=[n=1N(y(n)fw(x(n)))2]Originallossfunction+λi=1Kwi2L2loss

Çok değişkenli bir Gauss dağılımının

N(x;μ,Σ)=1(2π)D/2|Σ|1/2exp(12(xμ)Σ1(xμ))

Bayes kuralını kullanarak buna sahibiz.

p(w|D)=p(D|w)p(w)p(D)p(D|w)p(w)[nNN(y(n);fw(x(n)),σy2)]N(w;0,σw2I)nNN(y(n);fw(x(n)),σy2)i=1KN(wi;0,σw2)

Çok boyutlu Guassian'ı bir ürüne ayırabildiğimiz yerde, çünkü kovaryans kimlik matrisinin bir katıdır.

Negatif günlük olasılığını alın

log[p(w|D)]=n=1Nlog[N(y(n);fw(x(n)),σy2)]i=1Klog[N(wi;0,σw2)]+const.=12σy2n=1N(y(n)fw(x(n)))2+12σw2i=1Kwi2+const.

Elbette sabiti düşürebilir ve kayıp fonksiyonunu temelden etkilemeden herhangi bir miktarla çarpabiliriz. (sabit hiçbir şey yapmaz, çarpma öğrenme oranını etkili bir şekilde ölçeklendirir. Minima'nın yerini etkilemeyecektir) Bu nedenle, posterior dağılımın negatif log olasılığının L2 düzenli kare hata kaybı fonksiyonuna eşdeğer bir kayıp fonksiyonu olduğunu görebiliriz.

Bu eşitlik geneldir ve ağırlıkların herhangi bir parametrelenmiş fonksiyonu için geçerlidir - yukarıda belirtildiği gibi sadece lineer regresyon değil.


1

Bazı cezalandırılmış azami olabilirlik tahmininin ve Bayesian prosedürlerinin denkliği tartışılırken, vurgulanması gereken Bayesian modellemenin iki özelliği vardır.

  1. Bayesian çerçevesinde, önceki problemin özelliklerine göre seçilir ve hesaplamalı uygunluk ile motive değildir. Bu nedenle Bayesanlar, seyrek kestirim problemlerinden önceki popüler at nalı da dahil olmak üzere çeşitli öncelikler kullanır ve L1 veya L2 cezalarına eşdeğer olan önceliklere çok fazla ihtiyaç duymazlar.
  2. Tam bir Bayesian yaklaşımı ile işiniz bittiğinde tüm çıkarımsal işlemlere erişebilirsiniz. Örneğin, büyük regresyon katsayıları için kanıtları ölçebilir ve regresyon katsayıları ve genel öngörülen değerler üzerinde güvenilir aralıklar elde edebilirsiniz. Sık sık çerçevede, cezalandırmayı seçtikten sonra tüm çıkarım makinesini kaybedersiniz.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.