Bayesian Veri Analizi kitabını bu soruyu (özellikle bölüm 6) ve söyleyeceğim her şeyi yanıtlamak için harika bir kaynak olarak önerebilirim . Ancak Bayesyanların bu soruna saldırmasının olağan yollarından biri, Posterior Predictive P-değerleri (PPP) kullanmaktır. PPP'lerin bu sorunu nasıl çözeceklerine girmeden önce ilk önce aşağıdaki notayı tanımlayayım:
Let gözlemlenmiş olması ve parametrelerin vektör. Biz tanımlamak olarak çoğaltılmış veri olabilirdi , görülmediği veya, tahminsel olarak düşünmek veri olarak biz olur üretilen deney eğer yarın bkz bugün aynı model ve aynı ile tekrarlandı gözlenen verileri üreten değeri .θ y rep y θyθytemsilciyθ
Not biz dağılımını tanımlayacak arka prediktif dağılımı ile bilgi mevcut durumu verilen
p ( y rep | y ) = ∫ Θ p ( y rep | θ ) p ( θ | y ) d θytemsilci
p ( ytemsilci| y) = ∫Θp (ytemsilci| θ)p(θ | y) dθ
Şimdi, test miktarlarını , kontrol etmek istediğimiz hususları tanımlayarak model ile veri arasındaki farkı ölçebiliriz . Bir test miktarı veya tutarsızlık ölçütü , , verileri tahmin simülasyonları ile karşılaştırırken standart olarak kullanılan parametrelerin ve verilerin bir skaler özetidir. Test miktarları, klasik testlerde test istatistiklerinin oynadığı Bayesian model kontrolünde rol oynar. Bir test istatistiği için gösterimini tanımlarız; bu, yalnızca verilere dayanan bir test miktarıdır; Bayesian bağlamında, posterior dağılımları altındaki model parametrelerine bağımlılık sağlamak için test istatistiklerini genelleyebiliriz.T ( y )T( y, θ )T( y)
Klasik olarak, test istatistiğinin p değeri , yerde
'dir. dağılımı ile düzeltildi.p C = Pr ( T ( y rep ) ≥ T ( y ) | θ ) y rep θT( y)
pC= Pr ( T( ytemsilci) ≥ T( y) | θ )
ytemsilciθ
Bayes bakış açısına göre, arka kestirimci dağılıma göre verinin uygun olmaması, test miktarının kuyruk alanı olasılığı ya da p-değeri ile ölçülebilir ve nin arka simülasyonları kullanılarak hesaplanabilir. . Bayesian yaklaşımında, test miktarları, bilinmeyen parametrelerin fonksiyonlarının yanı sıra verilerin de nedeni olabilir; çünkü test miktarı, bilinmeyen parametrelerin posterior dağılımından çekilerek değerlendirilir.( θ , ytemsilci)
Şimdi, Bayesian p değerini (PPP), çoğaltılmış verilerin, test miktarıyla ölçülen gözlemlenen verilerden daha aşırı olabileceği olasılığı olarak tanımlayabiliriz:
olasılık posterior dağılımı üzerinden alınır ve arka prediktif dağıtım (diğer bir deyişle ortak dağıtım, ):
gösterge fonksiyonudur. Yine de pratikte genellikle simülasyon kullanarak posterior öngörücü dağılımı hesaplıyoruz.
pB= Pr ( T( ytemsilci, θ ) ≥ T( y, θ ) | y)
θyrepp(θ,yrep|y)pB= ∬ΘbenT( ytemsilci, θ ) ≥ T( y| θ)p ( ytemsilci| θ)p(θ | y) dytemsilcidθ ,
ben
Eğer zaten posterior dağılımından simülasyonları varsa , o zaman sadece her simüle edilmiş için öngörülen dağılımdan bir çizebiliriz ; Şimdi ortak posterior dağılımdan çizeriz, . Posterior prediktif kontrol, gerçekleştirilen test miktarları ile prediktif test miktarları . Tahmini p değeri, sadece test miktarının gerçek değerine eşit veya onu aşan bu simülasyonlarının oranıdır ; yani, bunun içinθ y temsilcisi θ L p ( y temsilcisi , θ | y ) T ( y , θ l ) T ( y temsilcisi l , θ L ) L , T ( y temsilcisi l , θ l ) ≥ T ( y , θ l ) l = 1 , . . . , LLθyrepθLp(yrep,θ|y)T(y,θl)T(yrepl,θl)L
T(yrepl,θl)≥T(y,θl)
için .
l=1,...,L
Klasik yaklaşımın aksine, Bayesian model denetimi "sıkıntı parametrelerini" işlemek için özel yöntemler gerektirmez. Arka simülasyonları kullanarak, modeldeki tüm parametreler üzerinde örtük olarak ortalamaları kullanıyoruz.
Ek bir kaynak olarak, Andrew Gelman'ın PPP'nin burada çok güzel bir makalesi var:
http://www.stat.columbia.edu/~gelman/research/unpublished/ppc_understand2.pdf