Karşılaştırma ve zıtlık, p değerleri, anlamlılık düzeyleri ve tip I hatası


21

Herhangi birinin p-değerlerinin, anlamlılık seviyesinin ve tip I hatasının tanımları ve kullanımlarıyla ilgili kısa bir özet verip veremeyeceğini merak ediyordum.

P-değerlerinin "en azından gerçekten gözlediğimiz en yüksek düzeyde bir test istatistiği elde etme olasılığı" olarak tanımlandığını, bir anlamlılık seviyesinin ise p-değeri önemli olup olmadığını ölçmek için rastgele bir kesim değeri olduğunu anlıyorum. . Tip I hata, reddedilen doğru bir boş hipotezi reddetme hatasıdır. Ancak, anlamlılık düzeyi ile tip I hatası arasındaki fark konusunda emin değilim, aynı kavram değil mi?

Örneğin, 1000 kere bir madeni para çevirdiğim ve 'kafalara' inme sayısını sayan çok basit bir deney yapalım. Boş hipotezim H0, kafaların = 500 (tarafsız para) olduğu yönünde. Daha sonra önem seviyemi alpha = 0.05 olarak belirledim.

Bozuk parayı 1000 kere çeviriyorum ve sonra p-değerini hesaplıyorum, eğer p-değeri> 0.05 ise boş hipotezi reddedemem ve p-değeri <0.05 ise boş hipotezi reddediyorum.

Şimdi, bu deneyi tekrar tekrar yaparsam, her seferinde p değerini hesaplar ve ya boş hipotezi reddeder ya da reddeder ya da reddeder / reddedememeyi saymazsam, o zaman boş hipotezlerin% 5'ini reddederdim. gerçekte hangileri doğruydu, doğru mu? Bu tip I hatanın tanımıdır. Bu nedenle, Fisher önem testindeki önem düzeyi, eğer tekrarlanan deneyler yaparsanız, temel olarak Neyman-Pearson hipotez testindeki tip I hatasıdır.

Şimdi p-değerlerine gelince, son denememden 0.06'lık bir p-değeri almış olsaydım ve çok sayıda denemeler yapıp, 0'dan 0.06'ya kadar bir p-değeri aldığımı saysam, o zaman Gerçek bir boş hipotezi reddetme şansı% 6?

Yanıtlar:


16

Soru basit görünüyor, ancak etrafındaki yansımanız bunun o kadar basit olmadığını gösteriyor.

Aslında, p değerleri istatistik teorisine nispeten geç bir ektir. Bilgisayar olmadan p değerini hesaplamak çok zahmetlidir; Bu nedenle, bir blog testinde yakın zamana kadar istatistiksel bir test yapmanın tek yolu, bu blog yazısında açıkladığım gibi, istatistiksel test tablolarını kullanmaktı . Bu tablolar sabit seviyeleri için hesaplandığından (tipik olarak 0.05, 0.01 ve 0.001) yalnızca bu seviyelerde bir test gerçekleştirebilirsiniz.α

Bilgisayarlar bu tabloları işe yaramaz hale getirdi, ancak test mantığı hala aynı. Malısın:

  1. Boş bir hipotez oluşturun.
  2. Alternatif bir hipotez formüle edin.
  3. Kabul etmeye hazır olduğunuz bir maksimum tip I hatası (null hipotezini yanlışlıkla reddetme olasılığı) hatası verin.
  4. Bir red bölgesi tasarlayın. Test istatistiklerinin, sıfır hipotezinin sizin seviyeniz olduğu düşünüldüğünde reddedilme bölgesinde düşme olasılığı . @ MånsT'in açıkladığı gibi, bu kabul edilebilir tip I hatalarınızdan daha küçük olmamalıdır ve çoğu durumda asimptotik yaklaşımlar kullanmalıdır.α
  5. Rastgele deneyi yapın, test istatistiğini hesaplayın ve reddetme bölgesinde düşüp düşmediğine bakın.

Teoride, "istatistik reddetme alanındaki istatistik düşüşü" ve "p-değeri küçüktür "α olayları arasında katı bir denklik vardır , bu yüzden p-değerini bunun yerine rapor edebileceğinizi hissediyorsunuz . Uygulamada, 3. adımı atlamanıza ve test yapıldıktan sonra I tipi hatayı değerlendirmenize izin verir .

Görevinize geri dönmek için, boş hipotezin ifadesi yanlıştır. Boş hipotez kafa çevirme olasılığı olduğunu (r hipotezi rastgele deney sonuçlarına ilgilidir olamaz).1/2

Deneyi tekrar tekrar ve p <0,05 eşik değeriyle tekrarlarsanız, evet, yaklaşık % 5 reddetmeniz gerekir. Ve 0,06 değerinde bir p-değeri kesmesi ayarladıysanız, kabaca% 6 reddi ile sonuçlanmalısınız. Daha genel olarak, sürekli testler için, p-değeri p'nin tanımı ilep

Prob(p<x)=x,(0<x<1),

bu sadece ayrık testler için yaklaşık olarak geçerlidir.

İşte bu biraz açıklığa kavuşturmak umduğum bazı R kodu. Binom testi nispeten yavaştır, bu yüzden 1000 jeton çevirdiğim sadece 10.000 rastgele deney yapıyorum. Binom testi yapıyorum ve 10.000 p değerini topladım.

set.seed(123)
# Generate 10,000 random experiments of each 1000 coin flipping
rexperiments <- rbinom(n=10000, size=1000, prob=0.5)
all_p_values <- rep(NA, 10000)
for (i in 1:10000) {
    all_p_values[i] <- binom.test(rexperiments[i], 1000)$p.value
}
# Plot the cumulative density of p-values.
plot(ecdf(all_p_values))
# How many are less than 0.05?
mean(all_p_values < 0.05)
# [1] 0.0425
# How many are less than 0.06?
mean(all_p_values < 0.06)
# 0.0491

Oranların kesin olmadığını görebilirsiniz, çünkü örneklem büyüklüğü sonsuz değildir ve test kesiklidir, ancak ikisi arasında kabaca% 1'lik bir artış vardır.


@ MånsT Teşekkürler! Sürekli ve ayrık testler arasındaki farkı sizlere +1'leyin (dürüstçe tamamen gözden kaçırmış olacağım).
gui11aume

4
@ gui11aume, girişiniz için teşekkürler! Ancak, "p-değerleri istatistik teorisine nispeten geç bir ekidir" ifadeniz gariptir. Okuduklarımdan itibaren, Fisher'ın p-değerleri ile 'anlamlılık testi' 1925'te ortaya çıktı. Neyman-Pearson'un 'hipotez testi', birkaç yıl sonra Fisher'ın çalışmasında bir “gelişme” olarak ortaya çıktı. P değerlerinin hesaplanması zor olduğu doğru olsa da (bu nedenle neden standart anlamlılık seviyelerinin kullanıldığını) anıtsaldı. Aslında, modern istatistiklerin çoğunun temelini oluşturduğu için “istatistiklerin babası” olarak anılır.
BYS2 11 Ağustos'ta

2
@ BYS2 Kesinlikle doğru (+1). P-değerleri teorisi, istatistiklerin kaynağından gelmektedir. Son zamanlarda yaygın kullanımlarıdır.
Fark

@guillaume bunun için teşekkürler, yine de başka bir hızlı sorum var. Boş hipotezimin H 0 = 500 olamayacağını söylüyorsunuz, ama örneğin çok sayıda metin kullanmış gibiyim: nul l hipotezi, ortalamanın 0 olacağı ya da araçlardaki farkın 10 olacağı yönündedir. böyle yapın: s .. t dağılımı sadece H0 = 0.5 yerine H0 = 500 kullandıysam ölçeklenir
BYS2

1
@ gui11aume: Belki de cevabımı incelemek ilginç olabilir: stats.stackexchange.com/questions/166323/…

15

Burada @MansT & @ gui11aume adresinden iyi cevaplar alıyorsunuz (her birine +1). Her iki cevabında da bir şeyi daha açık bir şekilde anlayabilir miyim, bir bakayım.

nk

p(k)=n!k!(nk)!pk(1p)nk
α=.05
number of heads:           0    1    2    3    4    5    6    7    8    9   10
individual probability:  .001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001
type I error rate:       .002 .021 .109 .344 .754   1  .754 .344 .109 .021 .002

α=.05.021αtype I errorα.05binom olasılıklar. Bunun gibi durumların , p değeri ile anlamlılık düzeyi arasındaki uyuşmazlığı en aza indirmeye yardımcı olmak için ortadaki p değerinin geliştirilmesine yol açtığını unutmayın .

Hesaplanan p değerinin , uzun süreli tip I hata oranına eşit olmadığı durumlar olabilir , bunun yanında, tip I hata oranının anlamlılık seviyesine mutlaka eşit olmaması gerekir. Bu gözlemlenen sayımlarla birlikte 2x2 beklenmedik durum tablosu düşünün:

     col1 col2
row1   2    4   
row2   4    2

χ2χ12=1.3,p=.248χ2χ2p=.5671.5637.5671

Dolayısıyla, buradaki meseleler, ayrı verilerle birlikte:

  • Tercih ettiğiniz önem düzeyi, olası I tipi hata oranlarından biri olmayabilir.
  • Sürekli istatistiklere (geleneksel) yaklaşımların kullanılması yanlış hesaplanan p-değerlerine neden olacaktır.

N

(Her ne kadar soru bu sorunların çözümlerini sormasa da) Bu sorunları azaltan şeyler var:

  • N
  • Hesaplanan değerleri doğru değerlere yaklaştıracak sık sık (Yates'in süreklilik düzeltmesi gibi)
  • N
  • Ortadaki p değeri, tip I hata oranını seçtiğiniz güven seviyesine yaklaştırma imkanı sunar.
  • açıkça var olan tip I hata oranlarından birini kullanabilirsiniz (ya da ne olacağını not edin).

Yanında bıraktığımız ayrıntıya girmen harika (+1).
gui11aume

@gung - ilk tablo için tip I hata oranlarını nasıl aldığınız hakkında yorum yapabilir misiniz?
istatistik134711

@ istatistik134711, aşırı veya daha aşırı (2 kuyruklu) seçenekler için bireysel olasılıkların toplamıdır.
gung - Monica

14

Kavramlar gerçekten birbirleriyle yakından ilişkili.

P(type I error)=ααP(type I error)ααP(type I error)αα

P değeri, sıfır hipotezinin kabul edileceği en düşük önem düzeyidir . Böylece bize sonucun ne kadar önemli olduğunu söyler.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.