Bayes regresyonu: Standart regresyon ile karşılaştırıldığında nasıl yapılır?


57

Bayesian regresyonu hakkında bazı sorularım var:

  1. gibi standart bir regresyon . Bunu bir Bayesian regresyonuna dönüştürmek , ve için önceden dağıtımlara ihtiyacım var (yoksa bu şekilde çalışmıyor)?y=β0+β1x+εβ0β1

  2. Standart regresyonda biri artıkları en aza indirmeye ve için tekli değerler elde . Bayes regresyonunda bu nasıl yapılır?β0β1


Burada gerçekten çok mücadele ediyorum:

posterior=prior×likelihood

Olasılık şu anki veri setinden geliyor (yani bu benim regresyon parametrem, ancak tek bir değer değil, bir olasılık dağılımı, değil mi?). Önceki önceki bir araştırmadan gelir (diyelim). Böylece şu denklem var:

y=β1x+ε

ile benim olabilirlik veya arka olmak (ya da bu sadece tamamen yanlıştır)? β1

Standart regresyonun bir Bayes'e nasıl dönüştüğünü anlayamıyorum.

Yanıtlar:


92

Basit doğrusal regresyon modeli

yi=α+βxi+ε

Arkasındaki olasılıksal model açısından yazılabilir.

μi=α+βxiyiN(μi,σ)

yani bağımlı değişkeni , ortalama parametreleştirilmiş normal dağılımı takip , bu, ve standart sapma parametrelediği lineer bir fonksiyonudur . Eğer böyle bir modeli normal en küçük kareler kullanarak tahmin ederseniz , olasılıklı formülasyon hakkında zahmete girmenize gerek yoktur, çünkü takılı değerlerin kare hatalarını tahmin edilen değerlere minimize ederek en uygun parametrelerini araştırıyorsunuzdur. Diğer yandan, bu tür bir modeli , olasılık olasılığını en üst düzeye çıkararak, parametrelerin optimal değerlerini arayacağınız maksimum olasılık tahminini kullanarak tahmin edebilirsiniz.YμiXα,βσα,β

argmaxα,β,σi=1nN(yi;α+βxi,σ)

burada değerlendirilen normal dağılımın bir yoğunluk fonksiyonu olan vasıtasıyla parametrize sayı, ve standart sapma .Nyiα+βxiσ

Bayesian yaklaşımında tek başına olabilirlik fonksiyonunu maksimize etmek yerine , parametreler için önceki dağılımları üstlenir ve Bayes teoremini kullanırdık.

posteriorlikelihood×prior

Olabilirlik işlevi yukarıdakiyle aynıdır, ancak ne değişiklik var , tahmin edilen parametreler için bazı önceki dağıtımları kabul edip denklemin içine eklemenizα,β,σ

f(α,β,σY,X)posteriori=1nN(yiα+βxi,σ)likelihoodfα(α)fβ(β)fσ(σ)priors

"Hangi dağıtımlar?" Sınırsız sayıda seçenek olduğu için farklı bir soru. İçin örneğin yapabildin parametreler normal bazıları tarafından parametrize dağılımları varsayalım hyperparameters veya -Dağıtım size çok varsayımda bulunmak istemiyorsanız ağır kuyrukları veya tekdüze dağılım varsaymak istiyorum ama varsaymak istiyorum parametrelerin önceden belirlenmiş "herhangi bir aralıktaki herhangi bir şey" olabileceği , vb. olabilir. için , standart sapmanın pozitif olması gerektiğinden, sıfırdan daha büyük olacak şekilde sınırlı olan bazı önceki dağılımları varsaymanız gerekir . Bu, aşağıda John K. Kruschke tarafından gösterilen model formülasyonuna yol açabilir.α,βtσ

Bayesian doğrusal regresyon modeli formülasyonu

(kaynak: http://www.indiana.edu/~kruschke/BMLR/ )

Maksimum olasılıkta, her bir parametre için tek bir optimal değer ararken, Bayes yaklaşımında Bayes teoremini uygulayarak parametrelerin posterior dağılımını elde edersiniz . Nihai tahmin Verilerinizden ve gelen bilgilere bağlı olacaktır priors ancak daha bilgi veri bulunan, daha az etkilidir Sabıkası .

Tek tip öncelleri kullanırken , normalleştirme sabitlerini bıraktıktan sonra biçimini aldıklarına dikkat edin . Bu, Bayes teoremini tek başına olabilirlik fonksiyonuyla orantılı yapar, böylece posterior dağılım, maksimum olabilirlik tahmini ile tam olarak aynı noktada maksimumuna ulaşır. Bundan sonra, üniforma öncelikleri altındaki tahmin, sıradan en küçük kareleri kullanmakla aynı olacaktır, çünkü kare hataların en aza indirilmesi normal olasılığın en yükseğe çıkarılmasına karşılık gelir .f(θ)1

Bayesian yaklaşımında bir modeli tahmin etmek için bazı durumlarda eşlenik önceleri kullanabilirsiniz , böylece posterior dağılım doğrudan kullanılabilir durumdadır ( buradaki örneğe bakınız ). Bununla birlikte, çoğu durumda posterior dağılım doğrudan mümkün olmayacak ve modeli tahmin etmek için Markov Chain Monte Carlo yöntemlerini kullanmanız gerekecek (doğrusal regresyon parametrelerini tahmin etmek için bu Metropolis-Hastings algoritmasını kullanma örneğini kontrol edin ). Eğer parametrelerin nokta tahminlerinde sadece ilgilenen Son olarak, şunu kullanabilirsiniz maksimum sonradan tahmini , yani

argmaxα,β,σf(α,β,σY,X)

Lojistik regresyonun daha ayrıntılı açıklaması için, Bayesian logit modelini - sezgisel açıklamayı kontrol edebilirsiniz. Konu.

Daha fazla bilgi edinmek için aşağıdaki kitapları inceleyebilirsiniz:

Kruschke, J. (2014). Bayesian Veri Analizini Yapmak: R, JAGS ve Stan İle Bir Ders. Akademik Basın.

Gelman, A., Carlin, JB, Stern, HS ve Rubin, DB (2004). Bayes veri analizi. Chapman ve Salon / CRC.


2
+1 Sorunun belirtilme şekli dikkate alındığında, belki de bu felsefi farkı biraz daha vurgulayabilirim: Olağan en küçük kareler ve maksimum olabilirlik tahmininde, " için en iyi değerler (belki daha sonra için" ) kullanılır?" βiOysa tam olarak Bayesian yaklaşımında, “Bilinmeyen değerler hakkında ne söyleyebiliriz ?”βive sonra nokta tahminine ihtiyaç duyulduğunda maksimum posteriori veya posterior ortalamayı kullanmaya devam edebilirsiniz.
JiK,

2
+1. Bayesian ve OLS yaklaşımları arasındaki ilişkiyi açıklığa kavuşturmak için faydalı olabilecek bir şey daha, OLS'nin önceden bir düzlem altında (en azından anladığım kadarıyla) arka ortalama olarak anlaşılabilmesidir. Cevabınızı biraz daha ayrıntılı anlatabilirseniz çok iyi olur.
amip diyor Reinstate Monica,

@ amoeba bu iyi bir nokta, bunu düşüneceğim. Fakat bir yandan, cevabı açıkça uzun yapmak istemiyorum, bu yüzden ayrıntılara girmenin bir anlamı var.
Tim

1
@ amoeba FYI, bu konuda kısa bir yorum ekledim.
Tim

22

veri kümesine burada , bir Bayesian Doğrusal Regresyon sorunu takip eden yol:D=(x1,y1),,(xN,yN)xRd,yR

:

wN(0,σw2Id)

w vektördür , bu yüzden önceki dağılım çok değişkenli bir Gaussian; ve , kimlik matrisidir.(w1,,wd)TIdd×d

Olabilirlik:

YiN(wTxi,σ2)

Biz varsayalımYiYj|w,ij

Şimdilik, varyans yerine hassasiyeti kullanacağız, ve . bilindiğini de varsayalım .a=1/σ2b=1/σw2a,b

Öncelikle

p(w)exp{b2wtw}

Ve olasılık

p(D|w)exp{a2(yAw)T(yAw)}

burada ve a, matris i-inci satır burada .y=(y1,,yN)TAn×dxiT

Sonra arkadaki

p(w|D)p(D|w)p(w)

Birçok hesaplamadan sonra şunu keşfediyoruz:

p(w|D)N(w|μ,Λ1)

nerede ( hassas bir matristir)Λ

Λ=aATA+bId
μ=aΛ1ATy

nın normal lineer regresyonun e eşit olduğuna dikkat edin , bunun nedeni Gaussian için ortalama moddur.μwMAP

Ayrıca, üzerinde biraz cebir yapabilir ve aşağıdaki eşitliği elde edebiliriz ( ):μΛ=aATA+bId

μ=(ATA+baId)1ATy

ve ile karşılaştırın :wMLE

wMLE=(ATA)1ATy

içindeki ekstra ifade karşılık gelir. Bu, Ridge regresyonunun ifadesine benzer, olduğunda özel durum için . Ridge regresyonu daha geneldir çünkü teknik uygunsuz önceleri seçebilir (Bayes perspektifinde).μλ=ba

Tahmini posterior dağılım için:

p(y|x,D)=p(y|x,D,w)p(w|x,D)dw=p(y|x,w)p(w|D)dw

hesaplamak mümkün

y|x,DN(μTx,1a+xTΛ1x)

Referans: Lunn ve diğ. Hata Kitabı

JAGS / Stan gibi bir MCMC aracını kullanmak için Kruschke’in Bayesian Veri Analizini Yapması


Teşekkürler jpneto. Bunun harika bir cevap olduğunu hissediyorum, ancak matematik bilgisindeki eksiklikten dolayı henüz anlamıyorum. Ama bazı matematik becerileri kazandıktan sonra kesinlikle tekrar okuyacağım
TinglTanglBob

1
Bu çok hoş, ama hassasiyetin bilindiği varsayımı biraz nadir görülür. Varyans için ters bir Gama dağılımı, yani hassasiyet için bir Gama dağılımı varsaymak daha yaygın değil mi?
DeltaIV

+1. "Ridge regresyon daha geneldir çünkü teknik uygunsuz önceleri seçebilir" hakkında biraz daha yorum yapabilir misiniz? Anlamadım. öncesi RR = Gauss (uygun) olduğunu düşündüm . w
amip diyor Reinstate Monica,

@ amoeba: Gaussian önceliği ancak sıfır olabilir, bu da uygunsuz bir sonuçlanır, yani MLE ile sonuçlanır. λwN(0,λ1Id)λ
jpneto

1
@DeltaIV: Elbette, bir parametre hakkında belirsizliğimiz olduğunda, bunu bir öncekiyle modelleyebiliriz. Bilinen hassasiyetin varsayımı, analitik bir çözüm bulmayı kolaylaştırmaktır. Genellikle, bu analitik çözümler mümkün değildir ve MCMC veya bazı değişken teknikler gibi yaklaşımları kullanmalıyız.
jpneto
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.