P değerleri null hipotezi altında eşit olarak dağılmıştır?


115

Son zamanlarda, Klammer ve ark. p-değerlerinin düzgün dağılması gerektiğini ifade eder. Yazarlara inanıyorum, ama neden böyle olduğunu anlayamıyorum.

Klammer, AA, Park, CY ve Stafford Noble, W. (2009) SEQUEST XCorr Fonksiyonunun İstatistiksel Kalibrasyonu . Proteome Araştırma Dergisi . 8 (4): 2106-2113.


24
Bu, boş hipotezin altındaki dağılımı kullanarak test istatistiğinin olasılık integral dönüşümü olarak p-değerinin tanımından hemen çıkar . Sonuç, dağıtımın sürekli olmasını gerektirir. Dağılım ayrık olduğunda (veya atomları varsa), p-değerlerinin dağılması da ayrıktır ve bu nedenle sadece yaklaşık olarak tekdüze olabilir.
whuber

1
@whuber, şüphelendiğim bir şey olan cevabı verdi. Orijinal referanstan sadece çeviride bir şeylerin kaybolmadığından emin olmasını istedim. Genellikle, makalenin özel olup olmamasının önemi yoktur, istatistiksel içerik her zaman gösterilmektedir :)
mpiktas

10
Sadece doğru olduğundaH0 ! ... ve daha katı bir ifadeyle, yalnızca sürekli olduğunda (bunun sürekli olmayan durumda doğru gibi olsa da; en genel durum için doğru sözcüğü bilmiyorum; tek biçimlilik değil). Sonra p-değer tanımından gelir.
Glen_b

2
Bu, fiziksel bir sistemin tüm mikro-durumlarının eşit olasılıklara sahip olduğu temel istatistik mekaniği ilkesinin bir çeşidi olarak görülebilir (öğrencilerin genellikle kabul etmekte zorlandıkları).
DWin

Yanıtlar:


83

Biraz netleştirmek için. Boş değer hipotezi doğruysa ve diğer tüm varsayımlar karşılandığında, p değeri eşit olarak dağılır. Bunun sebebi, gerçekten alfa tip I hata olasılığı olarak tanımlanmasıdır. Gerçek bir boş hipotezi reddetme olasılığının alfa olmasını istiyoruz, gözlemlenen olduğunda reddediyoruz, bunun alfa için tek yolu p-değeri tekdüze olduğunda geliyor dağılımı. Doğru dağılımı (normal, t, f, chisq, vb.) Kullanmanın bütün noktası, test istatistiklerinden tek tip bir p-değerine dönüştürmektir. Eğer boş hipotez yanlış ise, o zaman p-değerinin dağılımı (umarım) 0'a doğru daha fazla olacaktır.p-value<α

Pvalue.norm.simVe Pvalue.binom.simfonksiyonlar TeachingDemos R paketin, birkaç veri setleri simüle p-değerleri hesaplamak ve bu fikri göstermek için onları arsa olacaktır.

Ayrıca bakınız:

Murdoch, D, Tsai, Y ve Adcock, J (2008). P-Değerleri Rastgele Değişkenlerdir. Amerikan İstatistiği , 62 , 242-245.

daha fazla ayrıntı için.

Düzenle:

İnsanlar hala bu cevabı okuyup yorum yazdıkları için @ whuber'un yorumuna hitap edeceğimi düşündüm.

gibi bileşik bir boş hipotez kullanıldığında , p değerlerinin yalnızca 2 araç tam olarak eşit olduğunda eşit olarak dağıtılacağı ve değerinden küçük olan herhangi bir değer olduğunda tekdüze olmayacağı . Bu işlev kullanılarak kolayca görülebilir ve tek taraflı bir test yapmaya ayarlanmış ve simülasyon ve hipotezlenmiş araçlar ile simüle edilerek farklı (ancak null değerini doğru yapacak şekilde) kolayca görülebilir .μ 1 μ 2μ1μ2μ1μ2Pvalue.norm.sim

İstatistiksel teoriye kadar, bu önemli değil. Ailenizin her üyesinden daha uzun olduğumu iddia edersem, bu iddiayı test etmenin bir yolu, boyumu her seferinde ailenizin her birinin boyuyla karşılaştırmaktır. Diğer bir seçenek ise, ailenizin en uzun üyesini bulmak ve boylarını benimkiyle karşılaştırmak olacaktır. Eğer bir kişiden daha uzun boyluysam, o zaman diğerlerinden de daha uzun boyluyumdur ve iddiam doğrudur, eğer o kişiden daha uzun boylu değilsem, iddiam yanlıştır. Kompozit bir test etmek, benzer bir işlem olarak görülebilir; sadece eşitlik kısmını test edebileceğimiz tüm olası kombinasyonları test etmek yerine, yalnızca lehine reddedebilirsekμ 1 = μ 2 μ 1 > μ 2 μ 1 < μ 2 μ 1 < μ 2 α μ 1 μ 2 αμ1μ2μ1=μ2μ1>μ2o zaman biliyoruz ki bütün olasılıkları da reddedebiliriz . olduğu durumlar için p-değerlerinin dağılımına , dağılım mükemmel bir şekilde tekdüze olmayacaktır ancak 1'e 0'dan daha fazla değere sahip olacaktır, yani bir tip I hata olasılığının daha düşük olacağı anlamına gelir. Seçilen değeri muhafazakar bir test yapar. Üniforma, yaklaştıkça sınırlayıcı dağılım olurμ1<μ2μ1<μ2αμ1μ2(stat-teori terimlerinde daha güncel olan insanlar muhtemelen bunu dağıtım üstünlüğü veya benzeri bir şey olarak daha iyi ifade edebilirler). Bu nedenle, testimizi, boş bir bileşik olduğunda bile boşluğun eşit kısmını varsayarak inşa ederek, testimizi boşluğun doğru olduğu herhangi bir koşul için en fazla olan bir tip I hata olasılığına sahip olacak şekilde tasarlıyoruz .α


Tanıştığım yazım hatası için üzgünüm ( \leqTeX'de okumalı )!
chl

1
“P-Değerleri Rastgele Değişkenlerdir” makalesi gerçekten ilgi çekicidir, makalede belirtilen ilkelere uyan bir tanıtım kitabı var mı?
Alessandro Jacopson

8
Soruya gönderdiğim yoruma rağmen, o zamandan beri özel durumlar dışında sonucun doğru olmadığını anladım . Sorun, gibi bileşik hipotezlerle ortaya çıkar . "Boş hipotez doğrudur" şimdi, gibi birçok olasılığı kapsar . Böyle bir durumda, p-değerleri olacak değil düzgün şekilde dağıtılabilir. İnsanın hipotezinin hangi unsuru olursa olsun, p-değerlerinin dağılımının hiçbir zaman üniforma yakınında olmayacağı bir durumdan (biraz yapay) üretebileceğinden şüpheleniyorum. μ 1 = μ 2 - 10 6μ1μ2μ1=μ2106
whuber

1
@Greg Snow: P-değerlerinin dağılımının her zaman tek tip olmadığını düşünüyorum, sürekli bir dağılımdan hesaplandıklarında aynı olduğunu, fakat ayrı bir dağılımdan hesaplandıklarında aynı olmadığını düşünüyorum

1
@Whuber tarafından yapılan yorumu ele almak için yukarıdaki cevabı genişlettim.
Greg Snow

26

Boş hipotezi altında, test istatistikleriniz dağılımını (ör. Standart normal) gösterir. değerinin olasılık dağılımına sahip olduğunu gösteriyoruz Başka bir deyişle, düzgün olarak dağıtılır. Bu, tersinir olduğu sürece geçerlidir , bunun gerekli bir koşulu, ayrı bir rasgele değişken olmamasıdır.TF(t)P=F(T)P F ( ) T

Pr(P<p)=Pr(F1(P)<F1(p))=Pr(T<t)p;
PF()T

Bu sonuç geneldir: rastgele değişkenli bir tersinir CDF'nin dağılımı için aynıdır .[0,1]


8
kafa karıştırıcı olan son yorumunuzu tekrar yazmak isteyebilirsiniz. Sürekli CDF'lerde mutlaka (uygun) bir ters yoktur. (Bir karşı örnek düşünebilir misiniz?) Kanıtınız için ek şartlar gerekir. Bunun üstesinden gelmenin standart yolu, sahte . Argüman da daha ince olur. F(y)=inf{x:F(x)y}
kardinal

1
Genelleştirilmiş terslerle çalışma hakkında, bkz. Link.springer.com/article/10.1007%2Fs00186-013-0436-7 (özellikle, F (T) yalnızca F sürekli ise - F'nin ters çevrilip çevrilmediği önemli değil) değil). P-değeri tanımınızla ilgili olarak: Her zaman 'F (T)' olduğunu sanmıyorum . Bu, (sıfırın altında) gözlemlenen değerden daha aşırı bir değer alma olasılığıdır , bu yüzden hayatta kalma işlevi de olabilir (sadece burada kesin).
Marius Hofert

CDF değil mi? F(t)
zyxue

@zyxue Evet, cdf bazen "dağıtım" olarak adlandırılır.
mikario

6

, tüm için kümülatif dağılım fonksiyonu olan rastgele değişkeni göstermesine izin verin . tersinir olduğunu varsayarak , rasgele p-değeri nin dağılımını şu şekilde türetebiliriz :TF(t)Pr(T<t)tFP=F(T)

Pr(P<p)=Pr(F(T)<p)=Pr(T<F1(p))=F(F1(p))=p,

dağılımının üzerinde eşit olduğu sonucuna varabiliriz .[ 0 , 1 ]P[0,1]

Bu cevap Charlie'ninkine benzer, ancak tanımlamaktan kaçınır .t=F1(p)


F'yi tanımladığınız gibi, P = F (T) = Pr (T <T) = 0 değil mi?
TrynnaDoStat

Tam olarak değil, nin "sözdizimsel değiştirilmesi" biraz yanıltıcıdır. Resmen konuşmak gerekirse,F(T)=Pr(T<T)F(T)(F(T))(ω)=F(T(ω)):=Pr(T<T(ω))
jII

4

İki bağımsız değişken arasında doğrusal regresyon durumunda p değerlerinin dağılımının basit simülasyonu:

# estimated model is: y = a0 + a1*x + e

obs<-100                # obs in each single regression
Nloops<-1000            # number of experiments
output<-numeric(Nloops) # vector holding p-values of estimated a1 parameter from Nloops experiments

for(i in seq_along(output)){

x<-rnorm(obs) 
y<-rnorm(obs)

# x and y are independent, so null hypothesis is true
output[i] <-(summary(lm(y~x)) $ coefficients)[2,4] # we grab p-value of a1

if(i%%100==0){cat(i,"from",Nloops,date(),"\n")} # after each 100 iteration info is printed

}

plot(hist(output), main="Histogram of a1 p-values")
ks.test(output,"punif") # Null hypothesis is that output distr. is uniform

7
Bunun soruyu nasıl cevapladığını açıklayabilir misiniz? Çıkış rağmen göstermektedir iddianın özel bir durum, kod miktarı ne olursa sorusunu ele yeteneğine olacağını neden ? Bu ek açıklama gerektirir.
whuber

-1

Bu cevapların çoğunun soruyu genel olarak cevapladığını sanmıyorum. Basit bir boş hipotez olduğunda ve test istatistiğinin tersinir bir CDF'ye sahip olduğu (kesinlikle artan bir CDF'ye sahip olan sürekli rastgele bir değişkende olduğu gibi) durumla sınırlıdır. Bu durumlar, çoğu insanın z-testi ve t-testi ile ilgilenmeye meyilli olduğu vakalardır, bununla birlikte bir binom ortalaması (örneğin) test etmek için böyle bir CDF bulunmaz. Yukarıda verilen bu sınırlı durumlar için gözlerime doğru görünüyor.

Eğer boş hipotezler kompozit ise, işler biraz daha karmaşıktır. Bileşik davada reddetme bölgeleriyle ilgili bazı varsayımlar kullanarak gördüğüm gerçeğin en genel kanıtı Lehmann ve Romano'nun "Statik Hipotezleri Test Etme" sayfa 63-64'te verilmiştir. Aşağıdaki argümanı tekrarlamaya çalışacağım ...

Biz sıfır hipotezi sınamak alternatif hipotez karşı rastgele değişken olarak ifade edeceğiz bir test istatistiği, dayalı . Test istatistiklerinin bazı parametrik sınıflardan geldiği varsayılmaktadır, yani, , ki burada olasılık dağılımları ailesinin bir elemanıdır ve bir parametre alanıdır. Boş hipotezi ve alternatif hipotez , bir bölümünü oluşturur . H0H1XXPθPθP{PθθΘ}ΘH0:θΘ0H1:θΘ1Θ

Θ=Θ0Θ1
burada
Θ0Θ1=.

Testin sonucu burada herhangi bir grubu için tanımladığımız Burada bizim önem seviyemizdir ve , önem seviyesi için testin reddetme bölgesini belirtir .

ϕα(X)=1Rα(X)
S
1S(X)={1,XS,0,XS.
αRαα

Reddetme bölgelerinin varsa, değerini karşıladığını varsayalım . Bu iç içe geçmiş reddetme bölgeleri durumunda, yalnızca boş hipotezin verilen bir önem düzeyinde ( reddedilip reddedilmeyeceğini belirlemek değil , aynı zamanda sıfır hipotezinin reddedileceği en küçük önem seviyesini belirlemek için de faydalıdır . Bu seviye p-değeri olarak bilinir , bu sayı bize Verilerin (test istatistiği gösterildiği gibi) ne kadar güçlü olduğu boş hipoteziyle .

RαRα
α<αα
p^=p^(X)inf{αXRα},
XH0

Varsayalım ki bazıları için o . Ek olarak, reddetme bölgelerinin yukarıda belirtilen yerleştirme özelliğine uyduğunu varsayalım . Ardından aşağıdakiler geçerli olur:XPθθΘH0:θΘ0Rα

  1. Eğer tüm , daha sonra da , supθΘ0Pθ(XRα)α0<α<1θΘ0

    Pθ(p^u)ufor all0u1.

  2. İçin ise Elimizdeki tüm , daha sonra da Elimizdeki θΘ0Pθ(XRα)=α0<α<1θΘ0

    Pθ(p^u)=ufor all0u1.

Bu ilk özellik, sadece yanlış pozitif oran kontrol edilir söyler Not p-değeri daha düşük olduğunda, reddetme ile , ve ikinci özellik söyler p-değerleri, eşit boş altında dağıtılmaktadır (ek varsayımıyla) hipotez.uu

Kanıt aşağıdaki gibidir:

  1. Bırakın ve varsayalım tüm . Sonra tanımına göre , tüm için . Monotonicity ve varsayım olarak, şu anlaşılıyor ki herkes için . İzin vermek , bu izler .θΘ0supθΘ0Pθ(XRα)α0<α<1p^{p^u}{XRv}u<vPθ(p^u)Pθ(XRv)vu<vvuPθ(p^u)u

  2. Let ve varsayalım tüm . Ardından ve monotonluk ile . (1) göz önüne alındığında, olduğunu izler . θΘ0Pθ(XRα)=α0<α<1{XRu}{p^(X)u}u=Pθ(XRu)Pθ(p^u)Pθ(p^(X)u)=u

(2) 'deki varsayımın, boş hipotezin bileşik yerine basit olmasına rağmen bir test istatistiğinin ayrık olduğu durumlarda geçerli olmadığını unutmayın. Örneğin alın sahip ve . Yani, on kez bir yazı tura atın ve kafalara doğru önyargılı olup olmadığını test edin (1 olarak kodlanır). 10 dürüst parayla çevrilmiş kafada 10 kafa görme olasılığı (1/2) ^ 10 = 1/1024. 10 dürüst parayla 9 veya 10 kafa görme olasılığı 11/1024. Herhangi İçin eğer kesinlikle 1/1024 ve 11/1024 arasında, sen null adlı reddetmek istiyorum , ama biz yok bu değerler açısından ne zamanXBinom(10,θ)H0:θ=.5H1:θ>0.5αX=10Pr(XRα)=ααθ=0.5 . Bunun yerine bu . Pr(XRα)=1/1024α


Lehmann ve Romano’da verilen genelliğin genel reddetme bölgeleri için olduğunu açıklamalıdır. Yine de, birleşik boş değerler ve sürekli olmayan test istatistikleri için sadece "geçerli" p değerlerine sahipsiniz.
Adam

-12

Eğer p değerleri H0 altında eşit bir şekilde dağılmışsa, bu p = 0 p değeri 0 p = olarak görme olasılığının yüksek olduğu anlamına gelir, ancak bu, p değerini gözlemlemenin daha az olası olması nedeniyle doğru değildir. .05'in değeri, .80 değerinden daha büyüktür, çünkü bu kesin olarak p değerinin alındığı normal dağılımın tanımıdır. Normallik aralığında, bunun dışında, dışarıdan daha fazla örnek düşecek. Bu nedenle, daha küçük olanlardan daha büyük p değerleri bulma olasılığı daha yüksektir.


3
-1. Bu tamamen yanlıştır. Acaba bunu kim oyladı? H0 noktasındaki P değerleri eşit olarak dağılmıştır.
amip

1
-1. Bu yanlış olarak adlandırılmak için bile yeterli bir anlam ifade etmiyor: “normallik aralığı” anlamsız ve p-değerlerinin ilk başta normal dağılımlarla hiçbir ilgisi yok.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.