Bayesci model seçimi ve güvenilir aralık


10

Tüm değişkenlerin nicel olduğu üç değişkenli bir veri kümem var. , ve diyelim . MCMC ile Bayes perspektifinde bir regresyon modeline uyuyorumyx1x2rjags

Bir keşif analizi yaptım ve dağılım , ikinci dereceden bir terimin kullanılması gerektiğini gösteriyor. Sonra iki model taktımy×x2

(1)y=β0+β1x1+β2x2

(2)y=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22

Model 1'de her parametrenin etki boyutu küçük değildir ve% 95 güvenilir aralık değerini içermez .0

Model 2'de ve parametrelerinin etki büyüklüğü küçüktür ve tüm parametreler için güvenilir aralıkların her biri içerir .β3β40

Güvenilir bir aralığın içermesi , parametrenin önemli olmadığını söylemek için yeterlidir?0

Sonra aşağıdaki modeli ayarladım

(3)y=β0+β1x1+β2x2+β3x22

Her bir parametrenin efekt boyutu küçük değildir, ancak tüm güvenilir aralıklar içerir .β10

Bayesci istatistiklerde değişken seçimi yapmanın doğru yolu hangisidir?

EDIT: Kement beta modeli gibi herhangi bir regresyon modelinde kullanabilirsiniz? Ben burada bir vektör olduğu değişken dağılımlı bir model kullanıyorum . Daha önce da Laplace kullanmalıyım ?

log(σ)=δδX
δδδδ

EDIT2: Biri , için Gauss priori ve diğeri Laplace (çift üstel) olmak üzere iki model .βjδj

Gauss modelinin tahminleri

            Mean      SD  Naive SE Time-series SE
B[1]     -1.17767 0.07112 0.0007497      0.0007498
B[2]     -0.15624 0.03916 0.0004128      0.0004249
B[3]      0.15600 0.05500 0.0005797      0.0005889
B[4]      0.07682 0.04720 0.0004975      0.0005209
delta[1] -3.42286 0.32934 0.0034715      0.0034712
delta[2]  0.06329 0.27480 0.0028966      0.0028969
delta[3]  1.06856 0.34547 0.0036416      0.0036202
delta[4] -0.32392 0.26944 0.0028401      0.0028138

Kement modeli için tahminler

              Mean      SD  Naive SE Time-series SE
B[1]     -1.143644 0.07040 0.0007421      0.0007422
B[2]     -0.160541 0.05341 0.0005630      0.0005631
B[3]      0.137026 0.05642 0.0005947      0.0005897
B[4]      0.046538 0.04770 0.0005028      0.0005134
delta[1] -3.569151 0.27840 0.0029346      0.0029575
delta[2] -0.004544 0.15920 0.0016781      0.0016786
delta[3]  0.411220 0.33422 0.0035230      0.0035629
delta[4] -0.034870 0.16225 0.0017103      0.0017103
lambda    7.269359 5.45714 0.0575233      0.0592808

ve için tahminler Lasso modelinde çok azaldı, bu değişkenleri modelden kaldırmam gerektiği anlamına mı geliyor?δ2δ4

EDIT3: Önceden çifte üstel (Lasso) olan model bana Gauss önceliğe sahip modelden daha büyük Sapma, BIC ve DIC değerleri ve Gauss modelinde dağılım katsayısı sonra daha küçük değerler elde ediyorum .δ2


2
DBDA2E * 'nin Bölüm 18.4'ü çoklu regresyonda değişken seçimi ile ilgilidir. Büyük bir dikkatle, her bir katsayıyla birlikte içerme göstergelerini koyabilir ve arka içerme olasılığına bakabilirsiniz. Parametrelerin posterior dağılımlarını yorumlarken, sıfır içeren% 95 HDI sıfıra eşdeğerlik göstermez. * DBDA2E = Bayesian Veri Analizi 2.Baskı Yapıyor.
John K.Kruschke

2
Modelleri Bayesci bir çerçevede karşılaştırmanın doğal yolu, güvenilir aralıklarla değil, marjinal olasılıklardan geçiyor. Model ortalaması ile bağlantılı bir alternatif , bir karışım temsili kullanmak ve model tarafından veriler tarafından tercih edilen her modelin / bileşenin ağırlıklarından çıkarım yapmaktır.
Xi'an

@ Xi'an, ancak iki veya daha fazla modeli marjinal olasılıklarla karşılaştırmak, tüm modellere aynı olasılık önceden verilmiş olsaydı, Bayes faktörlerini kullanmakla aynı olmaz mıydı?
DeltaIV

Sevgili Prof. Kruschke, güvenilir aralıkların hesaplanmasından şüphe duyuyorum. Farklı öncekilere dayanan posteriorun akla yatkınlığına bağlı olarak birçok güvenilir aralık olabileceğini anladım. Fakat burada hangi akla yatkınlıkların en makul olduğuna nasıl karar verilir, hangisi daha akla yatkın posterior verir? Başka bir soru, posteriorları hesaplamak ve nihayetinde model kanıtların alt sınırını hesaplamak için Varyasyonel Çıkarım (VI) kullanıyorum. VI durumunda posteriorlar için güvenilir aralık nasıl hesaplanır? Ayrıca VI durumunda Bayes Faktörü'ne nasıl devam edilir?
Sandipan Karmakar

Yanıtlar:


9

Önemli olana (veya AIC gibi güvenilir bir aralığın 0 içerip içermediğine vb.) Dayalı bir model oluşturmanın, özellikle de model yapımı yapmamış gibi çıkarım yaparsanız, oldukça sorunlu olduğu iyi bilinmektedir. Bayes analizi yapmak bunu değiştirmez (ayrıca bkz . Https://stats.stackexchange.com/a/201931/86652 ). Yani, değişken seçimi yapmamalısınız, daha ziyade model ortalaması almalısınız (veya size sıfır katsayı alabilecek, ancak LASSO veya elastik ağ gibi tüm modelleme sürecini yansıtan bir şey).

Bayes modeli seçimi daha tipik olarak Bayes modeli ortalaması olarak çerçevelenir. Her biri farklı bir önceki olasılığa sahip farklı modelleriniz var. Bir model için arka model olasılığı yeterince azalırsa, modeli tamamen atarsınız. Her model için eşit önceki ağırlıklar ve düz öncelikler için, her model için ile orantılı ağırlıklarla model ortalaması buna yaklaşmaktadır.exp(BIC/2)

Alternatif olarak model ortalamasını bir nokta kütlesi (nokta kütlesinin ağırlığı, etkinin tam olarak sıfır olması = etkinin modelde olmaması) ve sürekli bir dağılım (örn. başak-levha öncelikleri). MCMC örneklemesi bu tür bir öncekiler için oldukça zor olabilir.

Carvalho ve diğ. daha önce başak ve döşemeye sürekli bir yaklaşım gibi çalıştığını öne sürerek at nalı büzülmesini motive eder. Sorunu hiyerarşik bir modele gömme durumudur, burada bazı değişkenler üzerindeki etkilerin boyutu ve varlığının bir kısmı diğerleri için gerekli kanıtları biraz gevşetir (küresel büzülme parametresi ile bu biraz yanlış keşif gibi) oran kontrolü) ve diğer yandan kanıtlar yeterince açıksa bireysel etkilerin kendi başlarına durmasına izin verir. Stan / rstan üzerine inşa edilen brms R paketinden uygun bir uygulaması vardır . At nalı + önceki gibi bir dizi benzer öncelik vardır ve tüm konu devam eden bir araştırma alanıdır.


Bayes Kementi bu istatistikler gibidir. Stackexchange.com/questions/28609/… ? Ben dağılım parametreleri ile ben bir model ben de bu parametreler için önce çift exponentail kullanmalıyım?

2

Bayes değişkeni seçimi için birkaç biçimsel yöntem vardır. Bayesian değişken seçim yöntemlerinin biraz eskimiş bir incelemesi şu şekilde sunulmaktadır:

Bayes değişken seçim yöntemlerine genel bakış: ne, nasıl ve hangileri

Farklı yöntemlerin ve R paketlerinin uygulandıkları performansın karşılaştırmasını da içeren daha yeni bir inceleme:

Tek Değişkenli Doğrusal Regresyonda Bayes Değişken Seçimi ve Model Ortalaması için Yöntem ve Araçlar

Bu referans özellikle değişken seçimi çalıştırmak için yanıtı ve ortak değişken değerlerini (ve bazı durumlarda hiperparametre değerlerini) bağlamanız gereken belirli R paketlerine işaret etmesi açısından kullanışlıdır.

"Bayes" değişken seçimi yapmanın bir başka, hızlı ve kirli ve tavsiye edilmeyen başka bir yolu da, BIC ve R komutu stepAIC () kullanarak aşamalı seçim (ileri, geri, her ikisi) kullanmaktır. BIC.

https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html

test etmenin bir başka hızlı ve kirli yolu , Savage-Dickey yoğunluk oranını ve zaten sahip olduğunuz posterior simülasyonu kullanmaktır:β4=0

https://arxiv.org/pdf/0910.1452.pdf


Bence soru, model 3'teki üç parametrenin neden 0 içeren güvenilir bölgelere sahip olduğunu soruyor ve 0 olup olmadığınıβ4
Michael R. Chernick

@MichaelChernick O halde OP neden soruyor "In this case is reasonable say that $\beta_4\neq 0$"? ve "Which is the right way to do variable selection in Bayesian statistics"?
CTHULHU

Sorunun bu kısmını kaçırdım ama asıl mesele olduğunu sanmıyorum.
Michael R.Chernick

1
@MichaelChernick Pekala, sanırım OP'nin burada son sözü var ...
CTHULHU

1

Bayesci istatistik fikrinin tamamı sık görülen bir yaklaşımdan farklıdır. Bu şekilde anlamlılık terimlerini kullanmanın doğru olmadığını düşünüyorum. Ben sonuçları (dağıtım) Eğer için modelinden alırsanız, bu konudaki kararı okuyucuya kadar olduğunu tahmin 's onun için güvenilir ya güvenilir bulunmaktadır. Daima dağıtımın kendisine bağlıdır. Ne kadar eğri ve geniş ve alanın ne kadarı sıfırın altında?β

Konu hakkında 41:55 de güzel bir ders bulabilirsiniz:

https://vimeo.com/14553953


Ben güvenilir aralık içeren bir değişkenin histogram bir örneğini eklendi Eğer bir bakabilirim? 0

1
Hafta sonundan itibaren. Histogramı nerede bulabiliriz?
burton030
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.