Bayesian Kement vs sıradan Kement


24

Kement için farklı uygulama yazılımları mevcuttur . Bayes yaklaşımı ve farklı forumlarda sıkça yaklaşan yaklaşım hakkında çok şey biliyorum. Benim sorum kemente çok özgü - Baysian kementinin normal kemente göre farklılıkları ve avantajları nelerdir ?

Paketteki iki uygulama örneği:

# just example data
set.seed(1233)
X <- scale(matrix(rnorm(30),ncol=3))[,]
set.seed(12333)
Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1)

require(monomvn) 
## Lasso regression
reg.las <- regress(X, Y, method="lasso")

## Bayesian Lasso regression
reg.blas <- blasso(X, Y)

Peki ne zaman bir yöntem veya başka bir yöntem kullanmalıyım? Yoksa onlar aynı mı?

Yanıtlar:


30

Standart kement, regresyonda seyreklik sağlamak için bir L1 düzenlileştirme cezası kullanır . Bunun Basis Pursuit olarak da bilindiğini unutmayın .

Bayesian çerçevesinde, düzenleyicinin seçimi, ağırlıkların üzerinde bir seçiminkine benzer. Önceden bir Gauss dili kullanılıyorsa, Maksimum A Posteriori (MAP) çözümü, L2 cezası kullanılmışsa aynı olacaktır. Doğrudan eşdeğer olmasa da, Laplace önceliği (sıfır civarında pürüzsüz olan Gaussian'ın aksine keskin bir şekilde sıfıra yakın şekilde zirveye ulaşır), L1 cezası için aynı büzülme etkisi yaratır. Bu yazıda Bayesian Lasso anlatılmaktadır. .

Aslında, parametrelerin önüne bir Laplace yerleştirdiğinizde, MAP çözümü, L1 cezası ile yapılan düzenlemeye benzer (yalnızca benzer değil) olmalı ve önceki Laplace, L1 cezasına benzer bir büzülme etkisi üretecektir. Bununla birlikte, Bayesian çıkarım prosedüründeki yaklaşımlardan veya diğer sayısal sorunlardan dolayı, çözümler aslında aynı olmayabilir.

Çoğu durumda, her iki yöntemin de ürettiği sonuçlar çok benzer olacaktır. Optimizasyon yöntemine ve yaklaşımların kullanılıp kullanılmadığına bağlı olarak, standart kement muhtemelen Bayesian sürümünden daha hesaplamak için daha verimli olacaktır. Bayesian, eğer gerekirse, hata değişkeni de dahil olmak üzere tüm parametreler için otomatik olarak aralık tahminleri üretir.


"Eğer bir Gauss öncüsü kullanılıyorsa, Olası Olabilirlik çözümü aynı olacaktır ...". Vurgulanan cümle "Maximum A Posteriori (MAP)" ifadesini okumalıdır, çünkü Maksimum Olabilirlik tahmini sadece parametreler üzerindeki önceki dağılımı görmezden gelecektir;
mefathy

1
Parametrelerin önüne bir Laplace yerleştirdiğinizde, MAP çözümü, L1 cezasıyla yapılan düzenlemeye benzer (yalnızca benzer değil) olacak ve daha önce Laplace, L1 cezasına benzer bir büzülme etkisi üretecektir.
mefathy

@mefathy evet, her iki sayımda da haklısınız (elbette YMMV. Her iki yorumu de içerecek şekilde cevabı güncelledim.
tdc

6

"En küçük kareler", genel çözümün, her bir denklemin sonuçlarında yapılan hataların karelerinin toplamını en aza indirdiği anlamına gelir. En önemli uygulama veri uydurmadır. En küçük kareler anlamında en iyi uyum, kare kalıntıların toplamını minimuma indirir, bir kalıntı, bir gözlenen değer ile bir model tarafından sağlanan sabit değer arasındaki farktır. Kalıntıların tüm bilinmeyenlerde doğrusal olup olmadığına bağlı olarak doğrusal en küçük kareler.

Bayesian doğrusal regresyon , Bayesian çıkarımı bağlamında istatistiksel analizin yapıldığı lineer regresyona bir yaklaşımdır. Regresyon modelinin normal dağılıma sahip hataları varsa ve belirli bir önceki dağılım şekli varsa, modelin parametrelerinin posterior olasılık dağılımları için açık sonuçlar elde edilebilir.

Bazı bağlamlarda, en küçük kareler çözeltisinin düzenli bir versiyonu tercih edilebilir. Tikhonov normalizasyonu (ya da regresyon regresyonu) , parametre vektörünün L2-normu olan , verilen bir değerden büyük olmayan bir kısıtlama ekler . Bir Bayesian bağlamında, bu parametre vektörüne önce normal olarak dağılmış sıfır ortalamasını yerleştirmeye eşdeğerdir.β2

En küçük karelerin alternatif bir düzenlileştirilmiş versiyonu , parametre vektörünün L1-normu olan , verilen vektörden daha büyük olmayan kısıtlamayı kullanan Kement'tir (en az kesin büzülme ve seçim operatörü) . Bir Bayesian bağlamında, bu parametre vektörüne önceden dağıtılmış bir sıfır-ortalama Laplace yerleştirmeye eşdeğerdir.β1

Kement ve sırt regresyonu arasındaki en büyük farklardan biri, sırt regresyonunda, ceza arttıkça, tüm parametrelerin düşürülmemesine rağmen hala azalırken, Küçültme'de cezanın arttırılmasının parametrelerin gittikçe daha fazla olmasına neden olacağı yönündedir. sıfıra sürüldü.

Bu makale normal kementleri Bayesian kementleri ve sırt regresyonu ile karşılaştırmaktadır (bkz. Şekil 1 ).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.