Bayesian güvenilir aralıklarının sık sık güven aralıklarının gerisinde kaldığı açıkça görülüyor mu?


81

Güven ve güvenilir aralıklar arasındaki fark hakkındaki son bir soru, Edwin Jaynes'in bu konuyla ilgili makalesini tekrar okumaya başlamamı sağladı:

Jaynes, ET, 1976. “Olasılık Teorisi, İstatistiksel Çıkarım ve Bilimin İstatistiksel Teorileri, WL Harper ve CA Hooker (ed.), D. Reidel, Dordrecht, s. 175; ( pdf )

Özet olarak, Jaynes şöyle yazıyor:

... Bayesian ve ortodoks çözümleri, güven aralıklarını içeren altı ortak istatistiksel soruna (aynı akıl yürütmeye dayanan önem testleri dahil) sunuyoruz. Her durumda, durumun tam tersi olduğunu tespit ediyoruz, yani Bayesian yönteminin uygulanması daha kolay ve aynı veya daha iyi sonuçlar veriyor. Aslında, ortodoks sonuçlar ancak Bayesian sonuçları ile yakın (ya da tam olarak) aynı fikirde olduklarında tatmin edicidir. Henüz hiçbir ters örnek üretilmemiştir.

(vurgu madeni)

Rapor 1976'da yayınlandı, bu yüzden belki de işler yoluna girmiştir. Sorum şu ki, sık sık güven aralığının Bayesian güvenilir aralığından açıkça üstün olduğu örnekler var mı?

Yanlış önceki varsayımlara dayanan örnekler, farklı yaklaşımların iç tutarlılığı hakkında hiçbir şey söylemedikleri için kabul edilemez.


21
Oldukça hafif varsayımlar altında, (a) Bayesçi tahmin prosedürleri kabul edilebilir ve (b) tümü ya da hemen hemen tümü kabul edilebilir tahmin ediciler, bazılarına göre kabul edilir. Bu nedenle, bir Bayesian güven aralığının "aynı veya daha iyi sonuçlar vermesi" şaşırtıcı değil. (A) ve (b) ifadelerimin rasyonel karar teorisinin sık sık analiz edilmesinin bir parçası olduğuna dikkat edin . Sıklıkçıların Bayesalılarla birliği kurdukları yerde matematik veya hatta istatistiksel prosedürler üzerinde değil, bir problem için bir önceliğin anlamı, gerekçesi ve doğru kullanımı ile ilgilidir.
whuber

1
Öyleyse, yukarıdaki yorum OP'nin sorusuna verilen cevabın 'Böyle bir örnek yapılamaz' olduğu anlamına mı geliyor? Veya belki de, kabul edilebilirliğin arkasındaki varsayımları ihlal eden patolojik bir örnek var mıdır?

1
@Srikant: Güzel soru. Soruşturmaya başlamanın, Bayes tarafından kabul edilemez tahmin edicilerin bulunduğu bir durum olduğunu düşünüyorum - mutlaka "patolojik" değil, en azından "tersine örnek" bulma fırsatı sunan bir durum.
whuber

2
Bayesian cevabının ve sık cevabın aynı bilgiyi kullanması gerektiğini söyleyerek "yanlış önceki varsayımlara ..." biraz netlik eklerdim , yoksa sadece iki farklı sorunun cevabını karşılaştırıyorsunuz. Büyük soru olsa da (benden +1)
olasılık

3
patoloji olsun olmasın, muhtemelen türünün ilk örneği olurdu. Bu örneği görmeyi çok istiyorum, çünkü bu "patolojiler" genellikle kendileri için iyi bir öğrenme unsuruna sahip
olasılık

Yanıtlar:


52

Daha önce soruyu cevaplamaya başlayacağımı söyledim, işte burada ...

Jaynes, makalesinde sık sık bir güven aralığının yüksek (belirtilen) olasılıkla yalan söylemesini beklediğimiz ve istatistiğin gerçek değerinin yüksek (belirtilen) olasılıkla yatmasını bekleyebileceğimiz bir aralık olarak tanımlanmadığı için biraz yaramazdı. oldukları gibi yorumlanması halinde ortaya çıkar. Sorun şu ki, pratikte güven aralıkları böyle kullanılır, çünkü gerçek değeri içerme olasılığı yüksek olan bir aralık (veri örneğimizden elde edebileceğimiz veriler göz önüne alındığında) sıkça istediğimiz şeydir.

Benim için kilit husus, bir soru ortaya çıktığında, bu soruya doğrudan bir cevap vermenin en iyisi olmasıdır. Bayesian güvenilir aralıkları sık sık güven aralıkları daha kötü olup olmadığı aslında sorulan soruya bağlıdır. Sorulan soru şuysa:

(a) “Bana istatistiğin gerçek değerinin p olasılığına p uzandığı bir zaman verin”, o zaman sıkça bu soruyu doğrudan cevaplayamıyor gibi görünüyor (ve bu Jaynes'in makalesinde tartıştığı türden problemleri ortaya koyuyor), fakat Bayesian olabilir, bu nedenle Bayesian güvenilir bir aralık Jaynes tarafından verilen örneklerde sık güvenirlik aralığından üstündür. Ancak bu, yalnızca frekansçı için "yanlış soru" olduğu içindir.

(b) “Bana deneyin çok kez tekrarlandığı, istatistiğin gerçek değerinin bu aralıkların p *% 100'ü içinde kalacağı bir aralık verin”, ardından sıklıkta cevap tam olarak istediğiniz şeydir. Bayesian ayrıca bu soruya doğrudan bir cevap verebilir (her ne kadar basitçe anlaşılır güvenilir aralık olmasa da). Whuber'in soru hakkındaki yorumu bunun böyle olduğunu gösteriyor.

Bu yüzden, esasen, soruyu doğru bir şekilde belirlemek ve cevabı doğru bir şekilde anlamak meselesidir. Eğer (a) sorusunu sormak istiyorsanız, Bayesian güvenilir bir aralık kullanın, (b) sorusunu sormak istiyorsanız, sık sık bir güven aralığı kullanın.


2
Peki, özellikle bir CI'nin aslında hangi soruya cevap verdiği ile ilgili. Bununla birlikte Jaynes'in makalesinde, CI'lerin (ve en sık kullanılan prosedürlerin) "uzun vadede" iyi çalışacak şekilde tasarlandığından bahsetmektedir (örneğin, ne sıklıkta veya " gördüğünüzde dağılım yaklaşık olarak ... "sık kullanılan yöntemlerde varsayımlar?), fakat bunu yapabilen birçok prosedür var. Bu, aralarında karar vermesi zor olan çeşitli Bayesian prosedürlerini değerlendirmek için sık tekniklerin (tutarlılık, önyargı, yakınsama, vb.) Kullanılabileceğini düşünüyorum. n
olasılık

1
“Jaynes gazetesinde biraz yaramazdı…” Bence Jaynes'in yapmaya çalıştığı nokta (ya da ondan aldığım nokta) Güven Aralıklarının a) sorusunu yanıtlamak için kullanıldığı, vakalar ( yalnızca sıkça eğitime sahip olan herkesin , soru a'yı cevaplamak için CI'leri kullanacağını tahmin ediyorum ) ve uygun bir sıkıcı cevap olduğunu düşünecekler)
olasılık

2
evet, "biraz yaramaz" derken, Jaynes'in noktayı oldukça yaramazca (ama aynı zamanda eğlenceli) bir şekilde ifade ettiğini kastediyordum (ya da en azından böyle okudum). Ama o olmasaydı, muhtemelen herhangi bir etkisi olmazdı.
Dikran Marsupial

23

Bu Larry Wasserman tarafından yazılmış bir kitapta verilen bir "fleshed" örneğidir istatistiklerin tamamı Sayfa 216 üzerinde ( 12.8 Güçlü ve Bayes Çıkarım zayıf yönleri ). Temel olarak Wasserman'in kitabında olmayanları anlatıyorum 1) fırlatma çizgisinden ziyade neler olup bittiğine dair bir açıklama; 2) Wasserman'in rahatça veremediği sık sorulan cevabı; ve 3) aynı bilgiyi kullanarak hesaplanan eşdeğer güvenin aynı problemden muzdarip olduğunu gösteren bir gösteri .

Bu örnekte, aşağıdaki durumu belirtir

  1. Örnekleme dağılımına sahip bir gözlem, X:(X|θ)N(θ,1)
  2. önceden dağıtılması varyans için gerçekte bir genel kullanıyor , ancak şeması için uzmanlaşmış )τ 2 τ 2 = 1(θ)N(0,1)τ2τ2=1

Daha sonra, bu kurulumda% 95'lik güvenilir bir aralık kullanarak bir Bayesian kullanarak, sonunda gerçek değeri keyfi olarak büyük olduğunda,% 0 sıklıkta kapsama alanı olduğunu göstermeye devam ediyor . Örneğin, kapsama alanı için bir grafik sunar (p218) ve teta'nın gerçek değeri 3 olduğunda, gözle kontrol ederek kapsama yaklaşık% 35'tir. Sonra söylemeye devam ediyor:θθθ

... Bütün bunlardan ne sonuç çıkarmalıyız? Önemli olan, sık ve Bayes yöntemlerinin farklı soruları yanıtladığını anlamaktır. Önceki inançları verilerle ilkeli bir şekilde birleştirmek için Bayesian çıkarımını kullanın. Güven aralıkları gibi garantili uzun süreli performans ile prosedürler oluşturmak için sık kullanılan yöntemler kullanın ... (p217)

Ve sonra Bayes yönteminin neden bu kadar kötü performans gösterdiğinin bir diseksiyonu veya açıklaması olmadan devam ediyor . Dahası, sık kullanılan yaklaşımdan bir cevap vermez, sadece “uzun dönem” hakkında geniş bir fırça ifadesi - klasik bir politik taktik (gücünüzü + başkalarının zayıflığını vurgular, ancak hiçbir zaman benzerlerini karşılaştırmaz).

olarak belirtilen sorunun sık / ortodoks terimlerle nasıl formüle edilebileceğini göstereceğim ve ardından güven aralıklarını kullanarak sonucun tam olarak Bayesian ile aynı cevabı verdiğini göstereceğim . Böylece, Bayesian'deki herhangi bir kusur (gerçek veya algılanan) güven aralıkları kullanılarak düzeltilmez.τ=1

Tamam, işte gidiyoruz. Sorduğum ilk soru önceki tarafından hangi bilgi durumunun tanımlandığı ? Biri hakkında "cahil" ise , bunu ifade etmenin uygun yolu . Şimdi cahil olduğumuzu varsayalım ve bağımsız olarak gözlemledik . için posteriorumuz ne olurdu ?θ s ( θ ) α 1 , Y ~ N ( θ , 1 ) X, θθN(0,1)θp(θ)1YN(θ,1)Xθ

p(θ|Y)p(θ)p(Y|θ)exp(12(Yθ)2)

Böylece . Bu Wassermans örnekte verilen önceki dağılımı, bir iid kopyasını gözlenen sahip denk olduğu anlamına gelir eşittir . Sık kullanılan yöntemler bir öncekiyle baş edemez, ancak örnekleme dağılımından biri , diğeri eşit olan 2 gözlem yapmış gibi düşünülebilir . Her iki sorun da tamamen eşdeğerdir ve aslında soru için sıkça cevap verebiliriz.(θ|Y)N(Y,1)X00X

Bilinen varyansa sahip normal bir dağılımla uğraştığımız için, ortalama için bir güven aralığı oluşturmak için yeterli bir istatistiktir . Ortalama, eşittir ve örnekleme dağılımına sahiptirθx¯=0+X2=X2

(x¯|θ)N(θ,12)

Böylece bir CI şöyle verilir:(1α)%

12X±Zα/212

Ancak, Wasserman için örnek 12.8'in sonuçlarını kullanarak, için posterior güvenilir aralığın şöyle verildiğini gösteriyor:(1α)%θ

cX±cZα/2
.

Burada . Böylece, değerine değerini verir ve güvenilir aralık şöyle olur:c=τ21+τ2τ2=1c=12

12X±Zα/212

Güven aralıkları ile tamamen aynı. Bu yüzden, kapsamda Bayesian yönteminin gösterdiği herhangi bir kusur, sık güven aralığı kullanılarak düzeltilmez! [Eğer görmezden gelmeyi seçerse, o zaman adil bir kıyaslama yapmayı seçtiyse, Bayesyen de bunu önceden görmezden gelmeli ve cehaletten önce ve iki aralık yine de eşit olacaktır - her iki ].X ± Z α / 2 )p(θ)1X±Zα/2)

Peki burada neler oluyor? Sorun temel olarak normal örnekleme dağılımının sağlam olmama sorunlarından biridir. çünkü sorun zaten bir kimlik kopyasını gözlemlemeyle eşdeğerdir, . Eğer gözlenen varsa , o zaman bu son derece olası gerçek değeri ise gerçekleşmiş olma (olasılık olduğunu zaman 0,000032 olan). Bu, kapsamın büyük “gerçek değerler” için neden bu kadar kötü olduğunu açıklar, çünkü bir öncekinde yer alan örtülü gözlemi etkili bir şekilde yaparlar . Aslında, bu örneğin temelde aritmetik ortalamanın sınırsız bir etki işlevine sahip olduğunu göstermeye eşdeğer olduğunu gösterebilirsiniz.0 θ = 4 X 0 θ = 4X=00θ=4X0θ=4

Genelleme. Şimdi bazı insanlar "ama sadece özel bir durum olabilen düşündünüz" diyebilir . Bu doğru değil: herhangi bir değeri , tüm kopyalarının eşit olduğu gözlemlenerek yorumlanabilir . , sorunun ek olarak . Güven aralığı, büyük için aynı "kötü" kapsam özelliklerine sahip olacaktır . Eğer gözlemleyerek değerleri tutmak Ama eğer bu giderek olası hale gelir (ve hiçbir akıllı insan büyük dert devam edeceğini görmeye devam zaman ).τ 2 = 1τ=1 (N=0,1,2,3,)NX0Xθ0θ0τ2=1N (N=0,1,2,3,)NX0Xθ0θ0


1
Analiz için teşekkürler. AFAICS bu sadece yanlış (bilgilendirici) önceden yapılmış bir varsayımın neden olduğu bir sorun örneğidir ve Bayesian yaklaşımının iç tutarlılığı hakkında hiçbir şey söylemiyor mu?
Dikran Marsupial

1
0θ

0X0XθθX0X0θθ
olasılık,

10

Keith Winstein,

EDIT: Sadece açıklığa kavuşturmak için, bu cevabı acımasız istatistiksel oyun ile Kralın Keith Winstein Cevap Kral'da verilen örneği açıklar. Bayesian ve Frequentist cevaplarının her ikisi de aynı bilgileri kullanır; bu, aralıkları oluştururken adil ve haksız madeni paraların sayısı hakkındaki bilgiyi görmezden gelmektir. Bu bilgi göz ardı edilmezse, frekans uzmanı Güven aralığını oluştururken örnekleme dağıtımı olarak entegre Beta-Binom Olabilirlik olasılığını kullanmalıdır, bu durumda Clopper-Pearson Güven Aralığı'nın uygun olmadığı ve değiştirilmesi gerekir. Bayesian çözümünde de benzer bir ayarlama yapılmalıdır.

EDIT: Ayrıca, clopper Pearson Interval'in ilk kullanımını açıklığa kavuşturdum.

EDIT: ne yazık ki, alfa benim yanlış yol, ve clopper pearson aralığım yanlış. En kabadayım @ whuber'a özür diler, bunu doğru bir şekilde işaret etti, ama ilk başta kime katılmıyorum ve görmezden geldim.

Clopper Pearson yönteminin kullanılması CI çok iyidir

θ

[Pr(Bi(1,θ)X)α2][Pr(Bi(1,θ)X)α2]

X=1Pr(Bi(1,θ)1)=θPr(Bi(1,θ)1)=1θα21α2X=1X=0Pr(Bi(1,θ)0)=1Pr(Bi(1,θ)0)=1θ1θα2θ1α2X=0[0.025,1]X=1[0,0.975]X=0

Bu yüzden, Clopper Pearson Güven Aralığı'nı kullanan hiç kimse asla kafaya düşmeyecek . Aralığı gözlemledikten sonra, temelde bütün parametre alanıdır. Ancak CP aralığı, sözde% 95 aralığa% 100 kapsam sağlayarak bunu yapıyor! Temel olarak, Frequentists, vermesi istenenden% 95 güven aralığında daha fazla güvence vererek "hileler" (böyle bir durumda kim aldatmasa da kim? 1] aralık). Kral tam bir % 95 CI isterse, bu sık kullanılan yöntem gerçekte ne olduğuna bakılmaksızın başarısız olur (belki daha iyi bir yöntem var mıdır?).

Peki ya Bayesian Interval? (özellikle En Yüksek Posterior Desnity (HPD) Bayesian Interval)

(θ|X)Beta(1+X,2X)Pr(θθe|x=1)=1(θe)2Pr(θθe|x=0)=1(1θe)2θe=0.050.224X=1θe=10.050.776X=0(0,0.776)X=0(0.224,1)X=1

Böylelikle, Bayesian, kötü parayı kazandığı ve Bad madeni paranın şansı ile ortaya çıkacağı kuyruklarda ortaya çıkması durumunda HPD Güvenilir aralığı için başını kesecek .11012+1×1100

0.1

0.0250.975

Bir alıntı yapacak hakiki sonra,% 95 güven aralığı tanımı gereği gözlenen aralığının bazı durumlarda (yani en az bir) olmalıdır parametrenin gerçek değerini içermez . Aksi halde,% 95 etiketi nasıl haklı gösterilebilir? % 90,% 50,% 20 ve hatta% 0 aralıklarıyla adlandırmak geçerli ya da geçersiz olmaz mıydı?

Ücretsiz bir kısıtlama olmadan "aslında% 95 veya daha fazla anlamına gelir" ifadesinin ne kadar basit olduğunu söylemiyorum. Bunun nedeni, açık matematiksel çözümün tüm parametre alanı olması ve problemin önemsiz olmasıdır. Sanırım% 50 CI istiyorum? sadece yanlış negatifleri sınırlarsa, tüm parametre alanı sadece bu kriterleri kullanan geçerli bir CI'dir.

100%X=0100×1012+9101012+1%>95%X=1

Kapanışta, bir belirsizlik aralığı sormak biraz garip görünüyor ve ardından belirsiz olduğumuz gerçek değeri kullanarak bu aralığı değerlendirmek. Hem güven hem de güvenilir aralıklar için "daha adil" bir karşılaştırma, bana aralıkla verilen belirsizlik ifadesinin gerçeği gibi görünüyor .


α1α

1012α1α

1012α1α1α21θθ

@ Keith Winstein'ın cevabını mı kastediyorsun?
whuber

@whuber, evet keith winstein'ın cevabını kastettim.
olasılık

9

Sorun, cezanızla başlar:

Yanlış önceki varsayımlara dayanan örnekler, farklı yaklaşımların iç tutarlılığı hakkında hiçbir şey söylemedikleri için kabul edilemez.

Evet, önceliğinin doğru olduğunu nereden biliyorsun?

Filogeniye Bayesci çıkarım durumunda. En az bir değişiklik olasılığı, formülün evrimsel süresi (dal uzunluğu t) ile ilgilidir.

P=1e43ut

ikame oranı olmak.

Şimdi DNA dizilerinin karşılaştırmasına dayanan bir evrim modeli yapmak istiyorsunuz. Temelde, DNA dizileri arasındaki değişim miktarını mümkün olduğunca yakın bir şekilde modellemeye çalıştığınız bir ağacı tahmin etmeye çalışıyorsunuz. Yukarıdaki P, belirli bir dalda en az bir değişiklik şansıdır. Evrimsel modeller, iki nükleotid arasındaki değişim şansını tanımlar ve bu evrimsel modellerden tahmin fonksiyonu ya parametre olarak p ile ya da parametre olarak t ile türetilir.

Hassas bir bilgin yok ve p için daha önce bir daire seçtin. Bu, doğal olarak t için önce üssel olarak azalmaya neden olur. (T'den önce bir daire ayarlamak istiyorsanız daha da sorunlu hale gelir. P'den önce ima edilen, t'nin aralığını kestiğinize bağlıdır.)

Teoride, t sonsuz olabilir, ancak sonsuz bir aralığa izin verdiğinizde, yoğunluk fonksiyonunun altındaki alan da sonsuzluğa eşittir, bu nedenle önceki için bir kesme noktası tanımlamanız gerekir. Şimdi, kesme noktasını yeterince büyük seçtiğinizde, güvenilir aralığın her iki ucunun da yükselmesinin ve belirli bir noktada gerçek değerin artık güvenilir aralıkta bulunmadığını kanıtlamak zor değildir. Birincisi hakkında çok iyi bir fikriniz yoksa, Bayesian yöntemlerinin diğer yöntemlere eşit veya üstün olacağı garanti edilmez.

ref: Joseph Felsenstein: Filozofları Çıkarma, bölüm 18

Bir yandan notta, Bayesian / Frequentist kavgası yüzünden bıktım. İkisi de farklı çerçeveler ve Mutlak Gerçeği de değil. Klasik örnekler yanlısı Bayesian yöntemleri değişmeden olasılık hesaplamasından gelir ve bir sıklıkçı bunlarla çelişmez. Bayesian yöntemlerine karşı klasik argüman değişmez bir öncekinin keyfi seçimini içerir. Ve mantıklı öncelikler kesinlikle mümkün.

Her şey, herhangi bir yöntemin doğru zamanda doğru şekilde kullanılması ile sonuçlanır. Her iki yöntemin de doğru uygulandığı pek çok tartışma / karşılaştırma gördüm. Herhangi bir yöntemin varsayımları çok azdır ve çoğu zaman göz ardı edilir.

EDIT: açıklığa kavuşturmak için, problem, p'ye dayanan tahminin, Bayiliksiz çerçevede t'ye dayanmayan tahminden farklı olmamaktan kaynaklanıyor olması gerçeğinden kaynaklanmaktadır. Filogenetik çıkarım için ML çerçevesinde bu doğru değildir. Yanlış bir mesele değil, yönteme özgü.


3
Bayesci ve sıkça istatistik arasındaki farklarla kavga etmeden ilgilenmek mümkündür. Kusurları ve tercih edilen yaklaşımın yararlarını bilmek önemlidir. Öncelikleri özellikle dışlanmış bir çerçevede değil, sadece bir GIGO meselesi olduğu için dışladım. Aynı şey, örneğin, veriler için hatalı parametrik dağılım varsayarak ve örneğin sık sık istatistiklere uygulanır. Bu, yalnızca belirli bir yöntem olan, sık kullanılan bir metodolojinin eleştirisi olmazdı. BTW, uygunsuz öncelikler konusunda özel bir sorunum yok.
Dikran Marsupial

3
Jaynes'in ilk örneği: Aklı başında bir istatistikçi asla bu veri setinde F testi ve T testi kullanmayacak. Bunun dışında, iki kuyruklu bir testi P (b> a) ile karşılaştırdı, ki bu aynı hipotez test edilmedi. Bu nedenle örneği, daha sonra itiraf ettiği adil değil. Bunun yanında, "çerçeveleri" karşılaştıramazsınız. O zaman ne hakkında konuşuyoruz? ML, REML, LS, cezalandırılmış yöntemler, ...? katsayılar, istatistikler, tahminler için aralıklar ...? Lutheran servisinin Şii servislerine eşdeğer veya üstün olup olmadığını da sorabilirsiniz. Aynı Tanrı hakkında konuşuyorlar.
Joris Meys

Verilerinizin ne olduğunu ve modelinizde tahmin edeceğiniz parametrelerin neler olduğunu açıklayabilir misiniz? Bu konuda biraz kafam karıştı. Ayrıca, formülü ortalamak için $ yerine $$ kullanabilir misiniz? Yazı tipi boyutu şu anda çok küçük.

@Srikant: Felsensteins kitabındaki örnek, DNA evrimi için bir Jukes-Cantor modeline dayanmaktadır. Veri DNA dizileridir. Sıralamanızdaki, söz konusu formüle dayanarak dal uzunluğunuzla ilgili bir değişim olasılığını tahmin etmek istiyorsunuz. Şube uzunlukları, gelişme zamanı olarak tanımlanır: değişim şansı arttıkça, ata ile mevcut durum arasında geçen zaman da artar. Üzgünüz, ancak ML ve Bayesian filogenetik çıkarımının arkasındaki teorinin tamamını bir yazıda özetleyemiyorum. Felsenstein'ın bunun için yarım kitaba ihtiyacı vardı.
Joris Meys

Sanırım, sadece denkleminizdeki hangi değişkenlerin veri olduğunu ve hangisinin sizin dışınızda olduğu gibi, özellikle benim gibi birisine verdiğinizden açık olmadığı için parametre olduğunu açıklamanızı istedim. Hala kayboldum ama sanırım daha fazlasını öğrenmek için kitabı okumam gerekecek.

8

Sık yapılan güven aralıkları, hatalı pozitiflerin oranını sınırlandırdı (Tip I hataları) ve kapsamlarının, en kötü durumda bile, güven parametresiyle sınırlandırılacağının garantisi. Bayesian güvenilirlik aralıkları yok.

Dolayısıyla, önemsediğiniz şey yanlış pozitiflerse ve onları sınırlamanız gerekiyorsa, güven aralıkları kullanmak istediğiniz yaklaşımdır.

Örneğin, 100 saraylı ve saraylı mahkeme ile kötü bir kralınız olduğunu ve onlarla birlikte acımasız bir istatistiksel oyun oynamak istediğini varsayalım. Kralın bir trilyon adil para çantasının yanı sıra, kafa olasılığı% 10 olan bir haksız sikke var. Aşağıdaki oyunu yapacak. İlk önce, çantadan rastgele bir şekilde bir bozuk para çekecektir.

Daha sonra yazı tura 100 kişilik bir odanın etrafından geçecek ve her biri özel olarak bir deney yapmaya zorlanacak ve daha sonra her kişi madenin başının ihtimalinin ne olduğunu düşündükleri konusunda% 95'lik bir belirsizlik aralığı belirtecek.

Sahte pozitif olanı temsil eden bir aralık veren herhangi bir kişi - yani kafa ihtimalinin gerçek değerini içermeyen bir aralık - başı kesilecektir.

Para ağırlığının / a posteriori / olasılık dağılım fonksiyonunu ifade etmek istiyorsak, elbette ki güvenilirlik aralığı budur. Cevap, sonuçtan bağımsız olarak daima aralık [0.5, 0.5] olacaktır. Sıfır kafayı veya bir kafayı çevirseniz bile, yine de [0.5, 0.5] diyeceksiniz, çünkü kralın adil bir madeni para çekmesi ve 1/1024 gün üst üste 10 kafa alabilmesi çok muhtemeldir. Bundan daha fazlası, kral haksız madeni para çekti.

Dolayısıyla bu, saraylıların ve saraylıların kullanması için iyi bir fikir değil! Çünkü haksız para çekildiğinde, bütün oda (100 kişinin tamamı) yanlıştır ve hepsi kafasını yitirir.

En önemli şeyin yanlış pozitif olduğu bu dünyada, ihtiyacımız olan şey, ne kadar para çekilmiş olursa olsun, sahte pozitiflerin oranının% 5'in altında olacağının kesin bir garantisidir. O zaman, en kötü durumda bile, parametrenin gerçek değerinden bağımsız olarak en az% 95 oranında çalışan ve sağlayan Blyth-Still-Casella veya Clopper-Pearson gibi bir güven aralığı kullanmamız gerekiyor . Bunun yerine herkes bu yöntemi kullanırsa, o zaman hangi para çekilirse toplansın, günün sonunda beklenen yanlış insan sayısının beşten fazla olmayacağını garanti edebiliriz.

Yani mesele şudur: Kriteriniz yanlış pozitifler (veya aynı zamanda kapsamı garanti altına almak) sınırlama gerektiriyorsa, bir güven aralığı ile gitmelisiniz. Yaptıkları şey bu. Güvenilirlik aralıkları, belirsizliği ifade etmenin daha sezgisel bir yolu olabilir, sık sık yapılan bir analizden oldukça iyi performans gösterebilirler, ancak sizden sorduğunuzda alacağınız yanlış pozitiflere garanti edilmiş sınır vermeyeceklerdir.

(Tabii ki yanlış negatifleri de önemsiyorsanız, bunlar için de garanti veren bir yönteme ihtiyacınız olacak ...)


6
Bununla birlikte, düşünce için yiyecek, ancak, belirli bir örnek, sık kullanılan yaklaşımın yanlış pozitif ve yanlış negatif maliyetlerin göreli maliyetlerini göz önünde bulundurmasına izin verildiğinden haksızlıktır, ancak Bayesçi yaklaşımı değildir. Bayesian karar teorisine göre yapılacak doğru şey, yanlış-negatiflerle ilişkili bir ceza olmadığından [0,1] aralık vermektir. Bu nedenle, çerçevelerin benzeri bir karşılaştırmasında, Bayeslilerden hiçbiri hiçbir zaman önünü kesmeyecekti. Yanıltıcı-pozitifleri sınırlama meselesi, bana Jaynes'in mücadelesine cevap arayacak bir yön veriyor.
Dikran Marsupial

1
Ayrıca seçilen madalyonun yeterince sık döndürüldüğü durumlarda, sonunda Bayesian güven aralığının öncekilerden ziyade belli bir madalyonun uzun çalışma kafalarına odaklanacağını unutmayın. Hayatım bir kafanın gerçek olasılığını içeren aralığa bağlı olsaydı, sadece bir kere parayı çevirmem!
Dikran Marsupial

1
Bununla ilgili biraz daha fazla olsa da, bu örnek geçersizdir, çünkü başarının ölçülmesinde kullanılan ölçüt, kralın sorduğu soru ile aynı değildir. Sorun, "hangi madalyonun çekildiğinin önemi yoktur", önyargılı madalyonun nadirliği hakkında önceki bilgileri kullanan herhangi bir yöntemi tetiklemek için tasarlanmış bir maddedir. Olduğu gibi, Bayesain'ler de sınırlar türetebilir (örneğin PAC sınırları) ve eğer istenirse, ve cevabın Clopper-Pearson aralığıyla aynı olacağından şüpheleniyorum. Adil bir sınav olmak için, her iki yaklaşıma da aynı bilgi verilmelidir.
Dikran Marsupial

1
Dikran, "Bayesanlar" ve "Frequentists" olmaya gerek yok. Birinin sadece birine abone olabileceği uyumsuz felsefe okulları değiller! Etkinliği olasılık teorisi çerçevesinde ortak olarak gösterilebilen matematiksel araçlardır. Demek istediğim, eğer gereksinim, parametrenin gerçek değeri ne olursa olsun, hatalı pozitifler üzerinde mutlak bir sınırlama olursa, bir güven aralığı bunu gerçekleştiren yöntemdir. Elbette hepimiz aynı olasılık aksiyomları üzerinde hemfikiriz ve aynı cevap birçok şekilde elde edilebilir.
Keith Winstein

1
[0.1,0.5]0.10.5100%95%
Olasılık

0

Frekansist güven aralığının Bayesian güvenilir aralığından açıkça üstün olduğu örnekler var mı (Jaynes tarafından örtülü olarak yapılan zorluk uyarınca).

θ10θ1θ

Bernardo, bilimsel iletişim için bir standart olarak kullanılmak üzere bir "referans önceliği" önerdi [ve hatta "güvenilir bir referans aralığı" ( Bernardo - objektif güvenilir bölgeler )]. Bunun "Bayesçi yaklaşım" olduğunu varsayarsak, şimdi soru şudur: Bir zaman zaman diğerine göre daha üstün olan zaman nedir? Bayesian aralığının frekans özellikleri her zaman en uygun değildir, ancak "frekans" aralığının Bayesian özellikleri de değildir
(bu arada, "frekans aralığı" nedir?)


Spekülasyon yapıyorum ama bu cevabın başkalarının sahip olduğu tedaviyi alması gerektiğinden şüpheleniyorum. Birisi basitçe bunun, benim görüşüme göre kısmen geçerli bir eleştiriden kaçınmaya çalışan bazı doğal olarak Bayesian prosedürlerinin zayıflığı değil, kötü bir seçim meselesi olduğunu savunacak.
kardinal

@ cardinal adlı kullanıcının yorumu oldukça doğru. Buradaki önceliği, büyük bir emir ile kapalı, eleştiriyi çok zayıf kılıyor. Öncül bilgi, sık görüşmeci için de önemlidir; bildiklerini önsel kullanılır ne tahminler ve test istatistikleri örn belirlemelidir. Bu seçimler büyüklük sırasına göre yanlış olan bilgilere dayanıyorsa, kötü sonuçlar beklenmelidir; Bayes ya da sık sık olmak onunla gelmiyor.
konuk

Benim "örnek" cevabımın önemli bir parçası değildi. Ancak, iyi bir önceki seçim nedir? Desteği gerçek parametreyi içeren bir öncülü hayal etmek kolaydır, ancak posterior yoktur, bu nedenle sıklık aralığı üstündür?
Stéphane Laurent

Kardinal ve misafir doğru, sorumu açıkça "yanlış önceki varsayımlara dayanan örnekler farklı yaklaşımların iç tutarlılığı hakkında hiçbir şey söylemedikleri için kabul edilemez." İyi bir sebep için. Sıkça yapılan testler, yanlış varsayımların yanı sıra Bayesyen olanları da temel alabilir (Bayesian çerçevesi varsayımları daha açık bir şekilde ifade eder); Soru, çerçevenin zayıf yönleri olup olmadığıdır . Ayrıca eğer gerçek değer öncekindeydi, ama arkadaki değilse, bu gözlemler gerçek değerin doğru olma olasılığını reddettiğini ima eder!
Dikran Marsupial

1
Belki de cevabımı düzenlemeli ve "örneğimi" silmeliyim - bu cevabımın ciddi bir parçası değil. Benim cevabım esas olarak "" Bayesçi yaklaşım "ın anlamıydı. Bayesian yaklaşımına ne diyorsunuz? Bu yaklaşım öznel bir seçim yapılmasını gerektirir veya önceden bilgilendirici olmayan bir seçim yapmak için otomatik bir yol mu kullanır? İkinci durumda, Bernardo'nun eserinden bahsetmek önemlidir. İkincisi, aralıklar arasındaki "üstünlük" ilişkisini tanımlamamışsınız: aralığın diğerinden daha üstün olduğunu ne zaman söylüyorsunuz?
Stéphane Laurent
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.