Hipoteze eşdeğer olan p-değerini kullanarak hipotezi reddetmek, güven aralığına ait değil midir?


29

Bir tahminin güven aralığını resmen oluştururken, değerinin hesaplanma biçimine çok benzeyen bir formül ile sona erdi .p

Böylece soru: resmen eşdeğer mi? Yani, bir hipotez reddeden bir kritik değer ile eşdeğer kritik değer ile güven aralığı ait olmayan ?α 0 αH0=0α0α


2
@ coppens: evet, eğer iki test kullanılırsa, farklı istatistiklerle, iki farklı güven aralığı ile bitirdiniz. Fakat OP'nin temel bir gerçeği keşfettiğini düşünüyorum: Hem güven aralığı hem de p-değeri aynı istatistiklerin dağılımından elde edilmiştir, bu yüzden her ikisi de boş hipotezi reddetme veya karar vermeme konusunda karar vermek için kullanılabilir.
StijnDeVuyst

1
@StijnDeVuyst: Bir orantı için Clopper / Pearon aralığı ve orantı için Sterne aralığı, aynı büyüklükteki Binom dağılımından türetilir (p bilinmemektedir çünkü p). Clopper / Pearson ve Sterne arasındaki fark Binom yoğunluğunun asimetrisinden kaynaklanmaktadır. Sterne aralığı, aralığın genişliğini en aza indirmeye çalışır ve Clopper_pearson simetri tutmaya çalışır (ancak Binomialın eğriliği nedeniyle bu sadece yaklaşık olarak bulunabilir).

6
Genel olarak değil, hayır. Aralığın genişliğinin tahmini parametre değerinin bir işlevi olduğu durumları, test için aralığın genişliğinin varsayılmış olanın bir işlevi olduğu durumlarını göz önünde bulundurun. Açık bir örnek binom p'yi test ediyor olabilir. Normal yaklaşık kullanalım. sadeliği için (argüman formu buna bağlı olmasa da). N = 10 ve boş değeri p = 0.5 olarak kabul edin. 2 kafa gözlemlediğinizi düşünün; boş değer reddedilmez (çünkü "2" yaklaşık% 95 aralığında% 95 aralığındadır) ancak p için CI 0.5 içermez (çünkü CI
boşluğun

4
Veya normal yaklaşık olarak iyi olacak kadar büyük olması gerekirse, H0 p = 0.5; Yine, p için% 95 CI, 0.5 içermez, ancak% 5 testi reddetmez, çünkü H0 altında karşılık gelen aralık genişliği, alternatifin altında olduğundan daha geniştir (CI'yi yaptığınız şey).
Glen_b -Reinstate Monica

4
@Glen_b: Görünüşe göre bu yeni soru stats.stackexchange.com/questions/173005 burada tam olarak tanımladığınız durumun bir örneğini sunmaktadır.
amip diyor Reinstate Monica

Yanıtlar:


32

Evet ve hayır.

İlk önce "evet"

Gözlemlediğiniz şey, bir test ve bir güven aralığı aynı istatistiği temel aldığında, aralarında bir denklik olduğu: değerini , parametrenin null değerinin olduğu en küçük değeri olarak yorumlayabiliriz. dahil olacak güven aralığı.α 1 - αpα1α

Let parametre alanı içinde bilinmeyen bir parametre olarak ve örnek izin , rasgele değişkeni gerçekleştirir . Basitlik için, güven aralığı , rastgele bir aralık olarak rastgele bir aralık olarak tanımlayın , böylece kapsam olasılığı (Benzer şekilde, kapsama olasılığının ya da ile sınırlandırıldığı genel kapsamları da düşünebilirsiniz . Akıl yürütme benzerdir.)İçeride ISTV melerin RWMAIWi'nin R x = ( x 1 , ... , x , n ) X , nR , n X = ( X 1 , ... , x , n ) bir α ( X ) P θ ( θ I α ( x ) ) = 1 - αθΘRx=(x1,,xn)XnRnX=(X1,,Xn)Iα(X) 1 - α

Pθ(θIα(X))=1αfor all α(0,1).
1α

nokta boş hipotezinin iki taraflı bir sınamasını düşünün , alternatif . Let testinin p-değeri belirtir. Herhangi biri için , düzeyinde reddedilen durumunda . Düzeyi ret bölgesi kümesidir reddedilmesine neden : H 1 ( θ 0H0(θ0):θ=θ0 λ ( θ 0 , x ) α ( 0 , 1 ) H 0 ( θ 0 ) α λ ( θ 0 , x ) α α x H 0 ( θ 0 ) RH1(θ0):θθ0λ(θ0,x)α(0,1)H0(θ0)αλ(θ0,x)αα xH0(θ0)

Rα(θ0)={xRn:λ(θ0,x)α}.

Şimdi, için p-değerleri olan iki taraflı sınamalar ailesini düşünün . Böyle bir aile için ters çevrilmiş bir reddetme bölgesi tanımlayabilirizθ Θ Q α ( x ) = { θ Θ : λ ( θ , x ) α } .λ(θ,x)θΘ

Qα(x)={θΘ:λ(θ,x)α}.

Herhangi bir sabit , , eğer da reddedilirse, eğer ise ve eğer sadece eğer , yani, Test, tamamen belirtilen tamamen boş null dağılımlı bir test istatistiğine altında . Sonra Bu denklem herhangi birlH 0 ( θ 0 ) xR ) P θ 0 ( xR α ( ) ) , Q α ( x ) θ 0 α Sθ0H0(θ0)θ 0Q α ( x ) xR α ( θ 0 ) θ 0Q α ( x ) . λ ( θ 0 , X ) U ( 0 , 1 ) H 0 ( θ 0)xRα(θ0)θ0Qα(x)

xRα(θ0)θ0Qα(x).
λ(θ0,X)U(0,1)H0(θ0)
Pθ0(XRα(θ0))=Pθ0(λ(θ0,X)α)=α.
θ0Θve yukarıdaki denklemden beri, rasgele ayarının her zaman olasılık olan parametresini her zaman kapsar . Sonuç olarak, izin tamamlayıcısını ifade için, her Elimizdeki yani ters çevrilen reddetme bölgesinin tamamlayıcısının için güven aralığı olduğu anlamına gelir .
Pθ0(XRα(θ0))=Pθ0(θ0Qα(X)),
Qα(x)θ0αQαC(x)Qα(x)θ0Θ
Pθ0(θ0QαC(X))=1α,
1αθ

Farklı null araçları ve farklı numune araçları , için normal bir ortalama için testine karşılık gelen reddetme bölgelerini ve güven aralıklarını gösteren bir çizim verilmiştir . Gölgeli açık gri bölgede ise reddedilir . Koyu gri renkte gösterilen, reddetme bölgesi ve güven aralığı . θ ˉ x σ = 1 H 0 ( θ )zθx¯σ=1H0(θ)(x¯,θ)R0.05(0.9)=(,1.52)(0.281,)I0.05(1/2)=Q0.05C(1/2)=(0.120,1.120)görüntü tanımını buraya girin

(Bunun çoğu doktora tezimden alınmıştır .)

Şimdi "hayır" için

Yukarıda güven aralıklarını oluşturmanın standart yolunu açıkladım. Bu yaklaşımda, aralığı oluşturmak için bilinmeyen parametre ile ilgili bazı istatistikler kullanıyoruz . değerindeki aralık koşulunun uzunluğunu en aza indirmeyi amaçlayan en aza indirme algoritmalarına dayalı aralıklar da vardır . Genellikle, bu aralıklar bir teste karşılık gelmez.θX

Bu fenomen, iç içe geçmeyen bu tür aralıklarla ilgili problemlerle ilgilidir, bu da% 94 aralığının% 95 aralığından daha kısa olabileceği anlamına gelir. Bununla ilgili daha fazla bilgi için, bu son makalemin 2.5. Bölümüne bakın (Bernoulli'de görünmek üzere).

Ve ikinci bir "hayır"

Bazı problemlerde, standart güven aralığı, standart test ile aynı istatistiklere dayanmamaktadır ( bu yazıda Michael Fay tarafından tartışıldığı gibi ). Bu durumlarda, güven aralıkları ve testler aynı sonuçları vermeyebilir. Örneğin, , güven aralığında 0 olmasına rağmen, test tarafından reddedilebilir. Farklı istatistikler kullanıldığından, bu yukarıdaki "evet" ile çelişmez.θ0=0

Ve bazen "evet" iyi bir şey değil

Bir yorumda f harfinin işaret ettiği gibi , bazen aralıklarla testlerin birbiriyle çelişen hedefleri vardır. Kısa aralıklarla yüksek güce sahip testler istiyoruz, ancak en kısa aralık her zaman en yüksek güce sahip teste karşılık gelmiyor. Bu bazı örnekler için bakınız bu kağıdı (çok değişkenli normal dağılım) veya bu (üstel dağılım) veya Bölüm 4 tezim .

Bayesliler ayrıca hem evet hem hayır diyebilirler.

Birkaç yıl önce, burada Bayesian istatistiklerinde de bir test-aralık-denklik olup olmadığına dair bir soru yayınladım . Kısa cevap, standart Bayesian hipotez testini kullanarak cevabın "hayır" olmasıdır. Test problemini bir miktar yeniden düzenleyerek cevap, ancak "evet" olabilir. (Kendi soruma cevap verme girişimlerim sonunda bir bildiri haline geldi !)


2
Güzel cevap (+1) ve (bunu kısmen yapıyorsunuz) bazen güven aralıkları ve hipotez testlerinin (potansiyel olarak) çelişen hedefleri olduğunu belirtmek iyi olabilir: Biri, 'mümkün olduğu kadar küçük' bir güven aralığını bulmaya çalışır. hipotez testi için kişi 'mümkün olduğu kadar güçlü' kritik bir bölge bulmaya çalışır.

@fcoppens: Öneriniz için teşekkürler! Cevabımı bununla ilgili bazı satırlarla güncelledim.
MånsT

Güzel tez! Sterne aralığında da çalıştınız mı?

@fcoppens: Evet, Sterne aralığını biraz çalıştım, özellikle bu yazıda
MånsT

7
@ amoeba: Aslında, "hayır" in benim ikinci "hayır" olduğunu düşünüyorum. Bildiğim kadarıyla söyleyebilirim, o istatistik üzerinde güven aralığını üsleri ve testi istatistiklerde . Paydadaki farkı not alın. Her iki istatistiği kullanarak testler ve aralıklar oluşturabilirsiniz ve her ikisinde de aynı istatistiği kullandığınız sürece, hiçbir fark olmaz. T2=(p-p)/T1=(p^p)/p^(1p^)/nT2=(p^p)/p(1p)/n
MånsT

2

Tek bir parametreye bakarken, parametrenin değeri ve güven aralığı "uyumsuzluğu" hakkında bir testin nasıl yapıldığına bağlı olarak mümkündür. Özellikle, bir hipotez testi, boş hipotezi geçersiz zaman boş hipotezi reddederse , bir seviye testidir . Bu nedenle, örneğin yalnızca sıfır hipotezi altında geçerli olan model parametrelerinin (örneğin varyans) tahminlerini kullanabilirsiniz. Eğer biri daha sonra bu testi tersine çevirerek bir CI oluşturmaya çalıştıysa, alternatif hipotez altında kapsam pek doğru olmayabilir. Bu nedenle, kişi genellikle farklı bir güven aralığı oluşturur, böylece kapsam da alternatifin tam altındadır, bu da (genellikle çok küçük) bir uyumsuzluğa yol açabilir.ααα

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.