Bayes olasılığı açısından,% 95 güven aralığı neden% 95 olasılıkla gerçek parametreyi içermiyor?


14

Güven aralıkları hakkındaki Wikipedia sayfasından :

... tekrarlanan (ve muhtemelen farklı) deneylerin birçok ayrı veri analizinde güven aralıkları oluşturulursa, parametrenin gerçek değerini içeren bu aralıkların oranı güven seviyesiyle eşleşecektir ...

Ve aynı sayfadan:

Bir güven aralığı yok değil parametrenin gerçek değeri aslında elde edilen veriler ışığında güven aralığı içinde olmanın belirli bir olasılık olduğunu tahmin ediyoruz.

Eğer doğru anladıysam, bu son ifade olasılığın sıkça yorumlanmasıyla yapılır. Ancak, Bayes olasılığı açısından,% 95 güven aralığı neden% 95 olasılıkla gerçek parametreyi içermiyor? Ve eğer değilse, aşağıdaki akıl yürütmede yanlış olan ne?

Eğer bildiğim bir süreç zamanın% 95'inde doğru bir cevap üretirse, bir sonraki cevabın doğru olma olasılığı 0.95'tir (süreçle ilgili fazladan bir bilgim olmadığı için). Benzer şekilde birisi bana zamanın% 95'ini gerçek parametresini içerecek bir işlem tarafından oluşturulan bir güven aralığı gösterirse, bildiğim kadarıyla, 0.95 olasılıklı gerçek parametreyi içerdiğini söylemek doğru olmaz mıyım?

Bu soru şuna benzer, ancak aynı değildir, % 95 CI neden% 95 ortalamayı içerme şansı anlamına gelmez? Bu sorunun yanıtları,% 95 CI'nin neden ortalama% 95'i sık sık sık bir bakış açısıyla içerme şansını ima etmediğine odaklanıyor. Sorum aynı, ancak Bayesci bir olasılık perspektifinden.


Bunu düşünmenin bir yolu% 95 CI "uzun dönem ortalama" dır. Şimdi "kısa vadede" davaları bölmek için pek çok yol vardır, böylece oldukça keyfi bir kapsama elde edilir - ancak ortalamaları genel olarak% 95 vermek. Daha soyut bir başka yol ise , için oluşturmaktır öyle ki . Bunu yapmanın sonsuz sayıda yolu vardır. Burada , i. Veri kümesiyle oluşturulan CI'nin parametreyi ve bu durum için kapsama olasılığıdır. i = 1 , 2 , i = 1 p i = 0,95 x i p ixiBernoulli(pi)i=1,2,i=1pi=0.95xipi
olasılık

Yanıtlar:


11

Güncelleme : Birkaç yıllık gezinin yararı ile, benzer bir soruya yanıt olarak aslında aynı malzemenin daha özlü bir tedavisini kaleme aldım .


Güven Bölgesi Nasıl Oluşturulur

Güven bölgeleri oluşturmak için genel bir yöntemle başlayalım. Bir güven aralığı veya aralık kümesi vermek için tek bir parametreye uygulanabilir; ve daha yüksek boyutlu güven bölgeleri elde etmek için iki veya daha fazla parametreye uygulanabilir.

Biz gözlenen istatistik iddia parametrelerle bir dağılımından kaynaklanan , yani örnekleme dağılımınızın olası istatistikler üzerinde ve bir güven bölgesini aramaya olası değerlerin kümesinde . Bir yüksek Yoğunluk Bölgesi (HDR) tanımlayın: PDF'nin -HDR kendi alan bu destekleri olasılık en küçük alt grubudur . Theta'daki herhangi bir için -HDR'sini olarak belirtin . Sonra, için güven bölgesiDθs(d|θ)dθΘhhhs(d|ψ)HψψΘhθD C D = { φ : D H φ } h, verileri verildiğinde kümesidir . Tipik bir değeri 0.95 olacaktır.DCD={ϕ:DHϕ}h

Frekansçı Bir Yorum

Güvenilirlik alan önceki tanımından aşağıdaki olan . Şimdi , benzer koşullar altında alınan çok sayıda ( hayali ) gözlemi hayal edin . yani s ( d | θ ) ' dan örneklerdir . Yana H θ destekler olasılık h PDF'nin s ( d | İçeride ISTV melerin RWMAIWi'nin ) , P ( D IH θ ) =

dHψψCd
Cd={ϕ:dHϕ}{ D i } D{Di}Ds(d|θ)Hθhs(d|θ)P(DiHθ)=htümi için h . Bu nedenle, parça{Di} olanDiHθ olanh . Ve böylece, yukarıda eşdeğerlik kullanılarak fraksiyonu{Di} olanθCDi dah .

Bu, o zaman, için frequentist iddia nedir h güven bölgeye θ tutarındaki:

Hayali gözlem çok sayıda al {Di} örnekleme dağılımından s(d|θ) gözlenen istatistik yol açan D . Daha sonra, θ bir kısmını kaynaklanıyor h analog ama hayali güven bölgelerinin {CDi} .

Güven bölgesi CD nedenle olasılık hakkında herhangi iddialar içermeyecek θ yalanlar yerde! Sebebi bize üzerinden bir olasılık dağılımından söz sağlayan formüle edildikten içinde bir şey olmadığını basitçe θ . Yorum sadece üssü geliştirmeyen ayrıntılı bir üst yapıdır. Baz sadece s(d|θ) ve D , burada θ dağıtılmış bir miktar olarak görünmez ve bunu ele almak için kullanabileceğimiz hiçbir bilgi yoktur. θ üzerinden dağıtım yapmanın temel olarak iki yolu vardır :

  1. Doğrudan eldeki bilgilerden bir dağıtım atayın: p(θ|I) .
  2. θ ile başka bir dağıtılmış miktar arasında ilişki kurun : p(θ|I)=p(θx|I)dx=p(θ|xI)p(x|I)dx .

Her iki durumda da θ solda bir yerde görünmelidir. Frekansçılar her iki yöntemi de kullanamazlar, çünkü her ikisi de bir sapkınlık önceliği gerektirir.

Bayes manzarası

Bayes yapmak için en h güvenilirlik alan CD yeterlilik olmadan alındığında, sadece doğrudan yorumlanması: bu grubu olduğu ϕ olan D düşer h -HDR Hϕ örnekleme dağılımının s(d|ϕ) . Bize θ hakkında fazla bir şey söylemez ve işte bu yüzden.

D ve arka plan bilgileri I verilen θCD olasılığı : P ( θ C D | D I )DI

P(θCD|DI)=CDp(θ|DI)dθ=CDp(D|θI)p(θ|I)p(D|I)dθ
frequentist yorumlanması aksine biz hemen üzerinde bir dağılım talep ettiler, o Bildirimiθ. Arka plan bilgisiIörnekleme dağılımı olduğunu, daha önce olduğu gibi, bizes(d|θ):
P(θCD|DI)=CDs(D|θ)p(θ|I)p(D|I)dθ=CDs(D|θ)p(θ|I)dθp(D|I)i.e.P(θCD|DI)=CDs(D|θ)p(θ|I)dθs(D|θ)p(θ|I)dθ
Şimdi bu ifade, genel olarak değerlendirmek olarak etmezhdemek ki,hgüven bölgesiCDzaman içermeyenθolasılığı ileh. Aslındahtamamen farklı olabilir. Hangi birçok ortak durumlar, ancak, vardıryoketmek değerlendirmekhgüven bölgeleri bizim olasılık sezgiseller genellikle tutarlıdır yüzden.

Örneğin, bu önce, ortak PDF varsayalım d ve θ olmasıyla simetriktir pd,θ(d,θ|I)=pd,θ(θ,d|I) . (Bu, açıkça aynı alanı üzerinde PDF aralıkları bu varsayımı içerir d ve θ Daha sonra, önceden ise). p(θ|I)=f(θ) , elimizdeki s(D|θ)p(θ|I)=s(D|θ)f(θ)=s(θ|D)f(D) . Dolayısıyla

P(θCD|DI)=CDs(θ|D)dθs(θ|D)dθi.e.P(θCD|DI)=CDs(θ|D)dθ
bildiğimiz bir HDR tanımından herhangi içinψΘ
Hψs(d|ψ)dd=hand therefore thatHDs(d|D)dd=hor equivalentlyHDs(θ|D)dθ=h
Bu nedenle, verilens(d|θ)f(θ)=s(θ|d)f(d),CD=HDimaP(θCD|DI)=h. Önceki tatmin
CD=HDψ[ψCDψHD]
Denkliği tepeye yakın uygulama:
CD=HDψ[DHψψHD]
Bu nedenle, güven bölgesiCD içerenθ olasılığı ileh olası tüm değerleri için iseψ arasındaθ ,h arasında -HDRs(d|ψ) içerenD ancak ve ancakh -S ( d | D ) ' s(d|D) HDR'siψ içerir.

Şimdi simetrik ilişki DHψψHD tüm karşılanır ψ zaman s(ψ+δ|ψ)=s(Dδ|D) için tüm δ desteğini kapsayan s(d|D) ve s(d|ψ) . Bu nedenle aşağıdaki argümanı oluşturabiliriz:

  1. s(d|θ)f(θ)=s(θ|d)f(d) (öncül)
  2. ψδ[s(ψ+δ|ψ)=s(Dδ|D)] (öncül)
  3. ψδ[s(ψ+δ|ψ)=s(Dδ|D)]ψ[DHψψHD]
  4. ψ[DHψψHD]
  5. ψ[DHψψHD]CD=HD
  6. CD=HD
  7. [s(d|θ)f(θ)=s(θ|d)f(d)CD=HD]P(θCD|DI)=h
  8. P(θCD|DI)=h

Diyelim bir 1-D, normal ortalama dağılım bir güven aralığı iddiayı örnek bir ortalama göz önüne alındığında, gelen ölçümleri. Biz ve , bu nedenle örnek dağılımı olduğu Verileri almadan önce hakkında hiçbir şey bilmediğimizi varsayalım (bu bir konum hariç) parametresini) girin ve bu nedenle önceden birörnek atayın: . Açıkçası şimdi , bu yüzden ilk öncül tatmin oldu. İzin Vermek(μ,σ)x¯nθ=μd=x¯

s(d|θ)=nσ2πen2σ2(dθ)2
θf(θ)=ks(d|θ)f(θ)=s(θ|d)f(d)s(d|θ)=g((dθ)2) . (yani bu formda yazılabilir.) Sonra bunun üzerine ikinci öncül karşılandı. Her iki bina gerçek olan sekiz maddelik argüman uçları bize bu olasılık sonucuna aralığı güven içinde yatıyor olduğunu !
s(ψ+δ|ψ)=g((ψ+δψ)2)=g(δ2)ands(Dδ|D)=g((DδD)2)=g(δ2)so thatψδ[s(ψ+δ|ψ)=s(Dδ|D)]
θCDh

Bu nedenle eğlenceli bir ironimiz var:

  1. Atar frequentist güven aralığını diyemeyiz o , ne kadar masum üniforma verileri birleştiren önce görünüyor.hP(θCD)=hθ
  2. Bu şekilde bir güven aralığı olan Bayes , her nasılsa olduğunu bilir .hP(θCD|DI)=h

Son Açıklamalar

Biz altında (yani iki binayı) olan durumları güven bölgesi gerçekten olasılık verim vermez o . Bir frekansçı ilk öncülde şaşkına dönecektir, çünkü önceden bir içerir ve bu tür bir anlaşma kırıcısı bir olasılık yolunda kaçınılmazdır. Ama bir Bayesci için kabul edilebilir --- hayır, çok önemli. Bu koşullar yeterli ancak gerekli değildir, bu nedenle Bayes altında pek çok durumlar vardır eşittir . Aynı şekilde , özellikle de ön bilgiler önemli olduğunda olduğu birçok durum vardır .hhθCDθP(θCD|DI)hP(θCD|DI)h

Biz, sadece tutarlı bir Bayes gibi bir Bayes analizi uyguladık el altında bilgi verilmiş istatistik dahil . Ancak Bayesian, mümkünse, yöntemlerini ham ölçümlere --- yerine yerine uygulayacaktır . Çoğu zaman, ham verilerin özet istatistiklere daraltılması verilerdeki bilgileri yok eder; ve sonra özet istatistikler parametreleri hakkındaki orijinal veriler kadar iyi .D{xi}x¯Dθ


Bir Bayesçenin mevcut tüm bilgileri dikkate almaya karar verdiğini söylemek doğru olurken, soruda verilen yorum bir anlamda D'yi görmezden geldi mi?
qbolec

Durumu göstermek için iyi bir zihinsel resim mi: x pikseli yoğunluğunun y'nin gerçek paramın y ve gözlenen statünün x olduğu ortak ppb olduğu gri tonlamalı bir görüntü hayal edin. Her satır y'de, satırın% 95'ine sahip olan pikselleri işaretleriz. Gözlemlenen her stat x için CI (x) 'i x sütununda işaretli pikselleri olan satırlar kümesi olarak tanımlarız. Şimdi, x, y'yi rastgele seçersek CI (x) y iff x içerecek, y işaretlenmiş ve işaretli piksellerin kütlesi her y için% 95 olacaktır. Bu yüzden,
frekansçılar y'yi

@qbolec Bayesian yönteminde, geri kalanı dikkate alındığında bazı bilgileri keyfi olarak göz ardı edemeyeceğini söylemek doğrudur. Sıklıkla, tüm için örnekleme dağılımı altındaki (Boolean tamsayı olarak beklentisinin 0.95 olduğunu söylüyorlar. Sıklıkla 0.95 bir olasılık değil, bir beklentidir. y C I ( x ) p r o b ( xyyCI(x)prob(x|y,I)
CarbonFlambe - Monica'yı

6

Bayes olasılığı açısından,% 95 güven aralığı neden% 95 olasılıkla gerçek parametreyi içermiyor?

Bunun iki cevabı, ilki ikincisinden daha az yardımcı

  1. Bayesci istatistiklerde hiçbir güven aralığı yoktur, bu yüzden soru ilgili değildir.

  2. Bayes istatistik Ancak orada güvenilir aralıklar güven aralıkları benzer bir rol oynamaktadır. Bayes istatistiklerindeki öncelikleri ve posteriorları , bir parametrenin belirli değerleri aldığına dair makul inancı ölçüyor olarak görürseniz , sorunuzun cevabı evettir,% 95 güvenilir bir aralık, bir parametrenin% 95 ile yattığına inanılan bir aralığı temsil eder olasılık.

Eğer bildiğim bir süreç zamanın% 95'inde doğru bir cevap üretirse, bir sonraki cevabın doğru olma olasılığı 0.95'tir (süreçle ilgili fazladan bir bilgim olmadığı için).

evet, süreç% 95 olasılıkla doğru bir cevap tahmin ediyor

Benzer şekilde birisi bana zamanın% 95'ini gerçek parametresini içerecek bir işlem tarafından oluşturulan bir güven aralığı gösterirse, bildiğim kadarıyla, 0.95 olasılıklı gerçek parametreyi içerdiğini söylemek doğru olmaz mıyım?

İşleminizle aynı şekilde, güven aralığı% 95 olasılıkla doğru cevabı tahmin eder. Burada klasik istatistik dünyasına geri döndük: verileri toplamadan önce , güven aralığının sınırlarını belirleyen, rasgele toplanan verilerin% 95 olasılıkının sınırlar dahilinde olduğunu belirtebilirsiniz.

Senin süreciyle birlikte, sonra size cevap kazanılmış ettik, sen Gerçek cevap% 95 olasılık ile tahmin aynı olduğunu, tahminin ne olursa olsun dayalı demek olamaz. Tahmin ya doğru ya da yanlış.

Ve işleminizle aynı, güven aralığı durumunda, verileri aldıktan ve gerçek bir alt ve üst sınıra sahip olduktan sonra, ortalama ya bu sınırlar içinde ya da değil, yani ortalama varlık şansı Bunlardan özel sınırlar içinde 1 veya 0. (Having yağsız ya olduğu başvurmak soru bunun bu orada çok daha ayrıntılı olarak anlatılmıştır görünüyor.)

Bayesli bir olasılık görünümüne abone olursanız, size verilen bir güven aralığını nasıl yorumlayabilirsiniz.

Buna bakmanın birkaç yolu var

  1. Teknik olarak, güven aralığı bir önceki ve Bayes teoremi kullanılarak üretilmemiştir, bu nedenle ilgili parametre hakkında önceden bir inancınız olsaydı, Bayes çerçevesindeki güven aralığını yorumlamanın hiçbir yolu olmazdı.

  2. Güven aralıklarının yaygın olarak kullanılan ve saygı duyulan bir başka yorumu, parametre için "makul bir değer aralığı" sağlamalarıdır (bakınız, örneğin buraya ). Bu, "tekrarlanan deneyler" yorumunu vurgulamaktadır.

Dahası, belirli koşullar altında, özellikle de öncekinin bilgilendirici olmadığı durumlarda (size düz bir şey söylemez), güven aralıkları güvenilir bir aralıkla tam olarak aynı aralığı üretebilir. Bu koşullarda, bir Bayesci olarak, Bayes rotasını izlemiş olsaydınız, tam olarak aynı sonuçları alacağınızı ve güven aralığını güvenilir bir aralıkta yorumlayabileceğinizi iddia edebilirsiniz.


ama kesin bir güven aralıkları, bayesli bir olasılık görüşüne abone olsam bile, sadece yok olmayacaklar, değil mi? :) Sorduğum durum, Bayesli bir olasılık görüşüne abone olursanız, size verilen bir güven aralığını nasıl yorumlayacağımızdı .
Rasmus Bååth

Sorun, Bayes metodolojisi kullanılarak güven aralıklarının üretilmemesidir. Öncekiyle başlamıyorsun. Yardımcı olabilecek bir şey eklemek için yayını düzenleyeceğim.
TooTone

2

Size farklı oldukları yerde aşırı bir örnek vereceğim.

Bir parametre için benim% 95 güven aralığını oluşturmak varsayalım aşağıdaki gibi. Verileri örnekleyerek başlayın. Ardından ile arasında rastgele bir sayı oluşturun . Bu numarayı arayın . Eğer az olduğu ardından aralığını dönmek . Aksi takdirde "null" aralığını döndürün.0 1 u u 0.95 ( - , )θ01uu0.95(,)

Şimdi devam eden tekrarlamalar üzerinden, CI'lerin% 95'i "tüm sayılar" olacaktır ve dolayısıyla gerçek değeri içerecektir. Diğer% 5 değer içermediğinden sıfır kapsama alanına sahiptir. Genel olarak, bu işe yaramaz, ancak teknik olarak doğru% 95 CI.

Bayes güvenilir aralığı% 100 veya% 0 olacaktır. % 95 değil.


Yani bir güven aralığını görmeden önce gerçek parametreyi içerme olasılığının% 95 olduğunu söylemek doğrudur, ancak herhangi bir güven aralığı için gerçek parametreyi kapsama olasılığının verilere (ve bizim önceliğimize) bağlı olduğunu söylemek doğru mu? Dürüst olmak gerekirse, gerçekten mücadele ettiğim şey, güven aralıklarının ne kadar işe yaramaz olduğu (diğer yandan sevdiğim güvenilir aralıklar) ve gelecek hafta öğrencilerimize öğretmek zorunda kalmayacağı gerçeği ...: /
Rasmus Bååth

Bu sorunun daha fazla örneği var, ayrıca iki yaklaşımı karşılaştıran çok iyi bir makalesi var
olasılık

1

" Bayes olasılık açısından,% 95 güven aralığı neden% 95 olasılıkla gerçek parametreyi içermiyor? "

Bayesian İstatistiklerinde parametre bilinmeyen bir değer değil, bir Dağılımdır. "Gerçek değeri" içeren bir aralık yoktur, Bayesci bir bakış açısından mantıklı değildir. Rasgele değişkenin var parametre, sen mükemmel bu değerin olasılığı arasında olduğu bilebilir x_inf bir x_max sen distribuition biliyorsanız. Bu sadece parametreler hakkında farklı bir zihniyettir, genellikle Bayesliler parametrenin dağılımının ortanca veya ortalama değerini bir "tahmin" olarak kullandılar. Bayesian İstatistiklerinde bir güven aralığı yoktur, benzer bir şey güvenilirlik aralığı olarak adlandırılır .

Şimdi, frekansçı bir bakış açısından, parametre rastgele bir değişken değil, bir "Sabit Değer" dir, gerçekten olasılık aralığı (% 95 bir) elde edebilir misiniz? Bilinen bir dağılımı olan rastgele bir değişken değil, sabit bir değer olduğunu unutmayın. Bu nedenle metni geçtiğiniz için : "Bir güven aralığı, gerçekte elde edilen veriler göz önüne alındığında, parametrenin gerçek değerinin belirli bir güven aralığında olma olasılığına sahip olduğunu tahmin etmez."

Deneyimi defalarca tekrarlama fikri ... Bayesci bir akıl yürütmesinin, Frequencist olduğunu akla getirmesi değildir. Yaşam sürenizde sadece bir kez yapabileceğiniz gerçek bir canlı deney hayal edin, bu güven aralığını (klasik bakış açısından) inşa edebilir misiniz / yapmalısınız?

Ama ... gerçek hayatta sonuçlar oldukça yakın olabilir (Bayesci vs Frequencist), belki de bu yüzden kafa karıştırıcı olabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.