P değerini anlama


33

P-değerini açıklayan birçok materyal olduğunu biliyorum. Bununla birlikte, kavram daha fazla açıklama yapmaksızın sıkıca kavramak için kolay değildir.

İşte Wikipedia'dan p değerinin tanımı:

P-değeri, sıfır hipotezinin doğru olduğu varsayımıyla, en azından gerçekte olduğu kadar uç bir test istatistiği elde etme olasılığıdır. ( http://en.wikipedia.org/wiki/P- değeri )

Benim ilk soru ifadesi ile de ilgilidir "en azından fiilen gözlendi biri gibi aşırı uçta." P-değerinin kullanılmasının altında yatan mantığı anlamam şudur: Eğer p-değeri küçük ise, gözlemin sıfır hipotezi varsayarsak gerçekleşmesi olası değildir ve gözlemi açıklamak için alternatif bir hipoteze ihtiyaç duyabiliriz. Eğer p-değeri o kadar küçük değilse, gözlemin sadece boş hipotezi varsayarak gerçekleştiği muhtemeldir ve gözlemi açıklamak için alternatif hipotez gerekli değildir. Öyleyse eğer birisi bir hipotezde ısrar etmek istiyorsa, boş hipotezin p değerinin çok küçük olduğunu göstermesi gerekir. Bu bakış açısına göre, belirsiz ifadeyi anlamam, p-değerinin olduğu yönünde.min[P(X<x),P(x<X)]Eğer istatistiğin PDF'si tekdüze ise, X test istatistiğidir ve x gözlemden elde edilen değeridir. Bu doğru mu? Doğru ise, istatistiğin iki modlu PDF'sini kullanmak hala uygulanabilir mi? PDF'nin iki tepe noktası iyi ayrılırsa ve gözlenen değer, iki tepe noktası arasındaki düşük olasılık yoğunluğu bölgesinde bir yerde ise, p-değeri hangi aralığı verir?

İkinci sorun Wolfram MathWorld'den p-değeri bir başka tanımı ile ilgilidir:

Bir değişkenin, gözlenen değerden kesinlikle yüksek bir değere eşit veya büyük bir değer alma olasılığı. ( http://mathworld.wolfram.com/P-Value.html )

"Kesinlikle şans eseri" ifadesinin "boş bir hipotez varsayımı" olarak yorumlanması gerektiğini anladım. Bu doğru mu?

Üçüncü soru "sıfır hipotezi" kullanımını değerlendirmektedir. Birinin bir madalyonun adil olduğu konusunda ısrar etmek istediğini varsayalım. Hipotezi, kafaların göreceli sıklığının 0,5 olduğunu belirtir. O zaman boş hipotez “kafaların göreceli sıklığı 0,5 değil” dir. Bu durumda, boş hipotezin p değerini hesaplamak zor olsa da, alternatif hipotez için hesaplama yapmak kolaydır. Elbette iki hipotezin rolünü değiştirerek sorun çözülebilir. Sorum şu ki, doğrudan alternatif hipotezin (sıfır hipotezini vermeden) p-değerine dayanan reddedilme veya kabullenmenin doğru olup olmadığıdır. Tamam değilse, boş bir hipotezin p değerini hesaplarken bu tür zorluklar için olağan geçici çözüm nedir?




Bu konudaki tartışmaya dayanarak daha net bir şekilde yeni bir soru gönderdim .




14
Genellikle tanınmayacak bir incelik yakaladınız: "daha aşırı" , boş örneklemenin kuyruğunda daha açık (ama genel olarak doğru olmayan) anlamındansa , alternatif hipotezin göreceli olasılığı açısından ölçülmeli dağılımı. Bu, birçok hipotez testini doğrulamak ve kritik bölgelerini (ve p değerlerini) belirlemek için kullanılan Neyman-Pearson Lemma'nın formülasyonunda açıktır . Bunu düşünmek ilk sorunuza cevap verecektir.
whuber

1
Hatırladığım kadarıyla Neyman-Pearson Lemma basit ve basit hipotez testleri için en uygunudur (Ho: mu = mu_0, Ha: mu = mu_a). Kompozit testler için (Ho: mu = mu_0, Ha: mu> mu_a) alternatif bir test vardır.
RobertF,

Yanıtlar:


17

İlk cevap

Aşırı kavramını, test istatistiklerinin olasılığı açısından değil, değeri ya da test edilen rastgele değişkenin değeri olarak düşünmelisiniz. Aşağıdaki örneği Christensen, R.'den (2005) bildiririm. Fisher, Neyman, Pearson ve Bayes’in test edilmesi . Amerikan İstatistiği , 59 (2), 121–126

(r|θ=0r|1234p(r|θ=0)|0.9800.0050.0050.010pvalue|1.00.010.010.02

Burada gözlemler, ikinci hat Boş hipotez altında belirli bir gözlem gözlemlemek olasılığıdır Test istatistik olarak kullanılmıştır, Üçüncü kısım olan değeri. Fisherian testi çerçevesinde buradayız: Verilerin tuhaf olup olmadığını görmek istediğimiz bir hipotez ( , bu durumda ) var. En küçük olasılığı olan gözlemler, her biri% 0,5 ile 2 ve 3'tür. Örneğin 2 elde ederseniz, muhtemel veya daha az muhtemel bir şeyi gözlemleme olasılığı ( ve )% 1'dir. gözlemi katkıda bulunmuyorθ = 0 p H 0 θ = 0 r = 2 r = 3 r = 4 prθ=0pH0θ=0r=2r=3r=4p uzak olmasına rağmen (eğer bir sipariş ilişkisi varsa), gözlemlenebilecek olasılığı daha yüksek olduğundan değer.

Bu tanım genel olarak, bir sipariş ilişkisinin tanımlanmadığı hem kategorik hem de çok boyutlu değişkenleri barındırdığı için çalışır. En muhtemel sonuçtan bazı önyargıları gözlemlediğiniz bir içsel nicel değişken durumunda, tek kuyruklu değerini hesaplamak mantıklı olabilir ve yalnızca test istatistiği dağılımının bir tarafında bulunan gözlemleri düşünebilir.p

İkinci cevap

Mathworld'ün bu tanımına tamamen katılmıyorum.

Üçüncü cevap

Sorunuzu anladığımdan tam emin olmadığımı söylemeliyim, ancak size yardımcı olabilecek birkaç gözlem yapmaya çalışacağım.

Sadece sıfır hipotezine sahip olduğunuz en basit Balıkçı testi bağlamında, bu statüko olmalıdır . Bunun nedeni, Balıkçı testi, esasen çelişki ile çalışır. Bu nedenle, madeni para söz konusu olduğunda, farklı düşünmek için nedenleriniz yoksa, bunun adil olduğunu varsayarsınız, . Sonra hesaplamak altında verileriniz için değer ve eğer değeri önceden eşiğin altında, siz (çelişki ile ispat) hipotezi reddeder. Sen asla sıfır hipotezinin olasılığı hesaplamak.p H 0 pH0:θ=0.5pH0p

Neyman-Pearson testleri ile iki alternatif hipotez belirtiyorsunuz ve göreceli olma olasılıklarına ve parametre vektörlerinin boyutlarına bağlı olarak, birini tercih ediyorsunuz. Bu, örneğin yanlı - yansız bozuk para hipotezi testinde görülebilir. Tarafsız, parametreyi sabitlemek (bu parametre alanının boyutluluğu sıfırdır) anlamına gelirken, önyargılı herhangi bir değer (bir boyutuna eşit) olabilir. Bu, başka bir kullanıcı tarafından açıklandığı gibi, önyargı hipotezini, çelişki ile çelişmeyecek olanla çelişme denemesi sorununu çözmektedir. Fisher ve NP, örnek büyük olduğunda benzer sonuçlar verir, ancak tam olarak eşdeğer değildir. Burada bir önyargılı sikke için R basit bir kodun altında.θ 0.5θ=0.5θ0.5

n <- 100  # trials
p_bias <- 0.45  # the coin is biased
k <- as.integer(p_bias * n)  # successes

# value obtained by plugging in the MLE of p, i.e. k/n = p_bias
lambda <- 2 * n * log(2) + 2 * k * log(p_bias) + 2 * (n-k) * log(1. - p_bias)

p_value_F <- 2 * pbinom(k, size=n, prob=0.5)  # p-value under Fisher test
p_value_NP <- 1 - pchisq(q=lambda, df=1)  # p-value under Neyman-Pearson
binom.test(c(k, n-k))  # equivalent to Fisher

2
Bilmediğim harika bir yazıyı işaret ettiği için +1. (Ayrıca, Mathworld'ün istatistik görüşünün faydası hakkında biraz ihtiyaç duyulan şüphecilik için).
conjugateprior

Çok teşekkür ederim! Öyleyse, p değeri \ int_ {x: f (x) <= k} f'dir, burada f, bir test istatistiğinin PDF'sidir ve k, istatistiğin gözlenen değeridir. Tekrar teşekkürler.
JDL,

Üçüncü cevaba gelince, cevabınızda kanıtlanmış olan madalyonun adaletsizliğidir, çünkü adalet varsayımı reddedilmiştir. Aksine, madalyonun hakkını çelişki ile kanıtlamak için haksızlığı kabul etmek zorundayım \ theta \ neq 0.5 ve verilerimin p değerini hesaplamak zorundayım. Nasıl yapabilirim? Demek istediğim, adaletsizlik varsayımının \ neq işaretinden kaynaklanan zorluk. Adalet için bazı toleranslar getirmeli mi, 0.4 <\ teta <0.6 diyelim ve p-değerini \ teta cinsinden hesaplamalı mı ve 0 <\ teta <0.4 ve 0.6 <\ teta <1 üzerine entegre etmeli miyim?
JDL

Bir soru daha. Bu link "tek taraflı" p değerini açıklar. Tek taraflı p-değerinin "boş hipotez, iki popülasyonun gerçekten aynı olduğu ..." gibi sorulara cevap verdiğini söylüyor. belirtilen grup daha büyük ortalamaya sahip mi? " Tek taraflı p-değerinin uygun bir kullanımı mı? Boş hipotezin kendisinin bu durumda eşitsizlik olarak ifade edilmesi gerektiğini düşünüyorum (eşitlik ve tek taraflı test yerine).
JDL,

1
@Zag, bu cevap ile oldukça katılmıyorum: Eğer yok olması olasılığı açısından uç kavramının düşünmek. Bu örnekte sıfırın altındaki olasılığın test istatistiği olarak kullanıldığını söylemek daha iyidir - ancak bu zorunlu değildir. Örneğin, whuber tarafından bahsedildiği gibi, olasılık oranı bir test istatistiği olarak kullanılıyorsa, genel olarak olası örnekleri null değerindeki olasılıkla aynı sıraya koymaz. Diğer istatistikler, belirli bir alternatife veya tüm alternatiflere karşı maksimum güç için veya belli belirsiz bir sete karşı yüksek güç için seçilmiştir.
Scortchi - Monica'yı yeniden konumlandırın

8

(1) Bir istatistik, bir örnekten hesaplayabileceğiniz bir sayıdır. Sahip olabileceğiniz tüm numuneleri sıraya koymak için kullanılır (varsayılan model altında, madeni paraların kenarlarına inmediği ve neye sahip olduğunuz). ettiğiniz örnekten hesapladığınız şey buysa , & karşılık gelen rasgele değişkendir, o zaman p değeri boş hipotezi altında . 'Büyüktür' vs 'daha aşırı' prensip olarak önemsizdir. Normal ortalamada iki taraflı bir test yapmak için ancak çünkü uygun masalarımız var. (İki katına dikkat edin.)T P r ( T t ) H 0 P r ( | Z || z | ) 2 dk [ P rtTPr(Tt)H0Pr(|Z||z|)2min[Pr(Zz),Pr(Zz)]

Test istatistiklerinin numuneleri sıfır hipotezi altında olasılık sırasına koyma zorunluluğu yoktur. Orada başka bir yolu sapık gibi görünüyor (zag en örnekte olduğu gibi) durumlar (ilgili daha fazla bilgi olmadan ile tutarsızlıklar çeşit ne önlemleri en ilgi, & c bulunmaktadır.), Ancak genellikle diğer kriterler kullanılmaktadır. Böylece yukarıdaki test formülü için Bimodal ve testini .rH0H0

(2) Evet, altında demek .'H0

(3) "Kafaların sıklığı 0,5 değil" gibi boş bir hipotez, işe yaramaz çünkü hiçbir zaman reddedemezsiniz. "Kafaların frekansı 0,49999999" ya da istediğiniz kadar yakın olan bir bileşik sıfırdır. Madeni paranın adil olup olmadığını düşünseniz de, sorunla ilgili faydalı bir boş hipotez seçersiniz. Deneyden sonra belki de daha faydalı olanı, size açıkça adil bir para olmadığını ya da adil olamayacak kadar yakın olduğunu ya da daha fazla deneme yapmanız gerekebileceğini gösteren kafa sıklığı için bir güven aralığı hesaplamaktır.

(1) için örnek:

Bir madalyonun adaletli sesini 10 fırlatmayla test ettiğinizi varsayalım. Orada olası sonuçları. İşte bunlardan üçü:210

'H'H'H'H'H'H'H'H'H'H'HT'HT'HT'HT'HT'H'HT'H'H'HTTT'H

Muhtemelen ilk ikisinin biraz şüpheli göründüğü konusunda benimle aynı fikirde olacaksınız. Oysa null altındaki olasılıklar eşittir:

Pr('H'H'H'H'H'H'H'H'H'H)=11024Pr('HT'HT'HT'HT'HT)=11024Pr('H'HT'H'H'HTTT'H)=11024

Herhangi bir yere ulaşmak için, boş değerine hangi tür alternatifleri test etmek istediğinizi düşünmeniz gerekir. Her fırlatmanın bağımsızlığını hem boş hem de alternatif olarak kabul etmeye hazırsanız (ve gerçek durumlarda bu genellikle deneysel denemelerin bağımsız olmasını sağlamak için çok çalışmak anlamına gelir), toplam kafa sayısını bilgi kaybetmeden bir test istatistiği olarak kullanabilirsiniz . (Örnek boşluğu bu şekilde bölümlemek, istatistiklerin yaptığı başka bir önemli iştir.)

Yani 0 ile 10 arasında bir sayınız var.

t<-c(0:10)

Boş değerin altındaki dağılımı

p.null<-dbinom(t,10,0.5)

Eğer 10 kafamızdan (söz) 3 görürseniz en uygun, kafaların olasılık verisi olduğunu alternatif sürümü altında yüzden,310

p.alt<-dbinom(t,10,t/10)

Boş olan olasılık oranını alternatifin altındaki olasılık oranına (olasılık oranı denir) alın:

lr<-p.alt/p.null

İle karşılaştırmak

plot(log(lr),p.null)

Dolayısıyla bu boş değer için, iki istatistik sırası aynı şekilde örneklenir. 0,85 değerinde boş değerle tekrarlarsanız (örneğin, kafaların uzun süre çalışma sıklığının% 85 olduğunu test edin) yapmazlar.

p.null<-dbinom(t,10,0.85)
plot(log(lr),p.null)

lrt gof testi

Neden görmek için

plot(t,p.alt)

Alternatifin altında bazı değerleri daha az olasıdır ve olasılık oranı testi istatistiği bunu dikkate almaktadır. NB bu test istatistiği için aşırı olmayacakt

'HT'HT'HT'HT'HT

Ve bu iyi - her örnek bir açıdan aşırı kabul edilebilir. Test istatistiklerini, null ile ne tür bir tutarsızlık tespit etmek istediğinize göre seçersiniz.

... Bu düşünce trenine devam ederken, aynı boşluğu, bir jeton atıcısının diğerine etki ettiği alternatife karşı sınamak için örnek uzayını farklı şekilde bölen bir istatistik tanımlayabilirsiniz. sayısını çalıştırın , böylecer

'H'HT'H'H'HTTT'H

vardır :r=6

'H'H T 'H'H'H TTT 'H

Şüpheli dizi

'HT'HT'HT'HT'HT

yer alır . Öyler=10

T'HT'HT'HT'HT'H

diğer ucunda iken

'H'H'H'H'H'H'H'H'H'HTTTTTTTTTT

sahip . Test istatistiği olarak null altındaki olasılığı kullanarak (sevdiğiniz şekilde) örneğin p-değeri olduğunu söyleyebilirsinizr=1

'HT'HT'HT'HT'HT

bu nedenle . Bu testi bir öncekiyle karşılaştırarak, dikkate değer olan şey, sıfırın altındaki olasılıkla verilen sıralamaya sıkı sıkıya uysanız bile, test alanını örnek alanını bölümlemek için test istatistiğinizi tanımlama şekliniz alternatiflerin dikkate alınmasına bağlıdır.41024=1256


Pr (T \ ge t; H_0) tanımının bir test istatistiğinin herhangi bir multimodal (tabii ki, bimodal dahil) PDF'sine uygulanabileceğini söylüyorsunuz. Daha sonra, siz ve Zag, test istatistiklerinin multimodal PDF'leri için farklı p değerleri verir. IMHO, Zag'ın tanımı daha rezonanslıdır çünkü p-değerinin rolü, gözlemin işaret ettiği gibi sıfır hipotezi altında olduğunu gözlemlemenin ne kadar muhtemel (veya tuhaf) olduğunu belirlemektir. Pr (T \ ge t; H_0) tanımındaki mantığınız nedir?
JDL

@JDL, bu sadece bir p-değerinin tanımıdır. O zaman soru “iyi” bir test istatistiği nasıl bulunur (& 'iyi' nasıl tanımlanır). Bazen null (veya aynı sıralamayı veren verinin herhangi bir fonksiyonu) altındaki olasılık test istatistiği olarak kullanılır. Bazen başkalarını seçmek için iyi sebepler vardır; bu da kitaplarda teorik istatistiklerle ilgili çok fazla yer kaplar. Alternatiflerin açık veya örtülü olarak ele alındıklarını söylemenin adil olduğunu düşünüyorum. ...
Scortchi - Monica'yı yeniden kurun

@JDL, ... Ve eğer belirli bir gözlem, hem sıfır hem de alternatif altında düşük olasılıklara sahipse, onu aşırı olarak görmemek makul görünüyor .
Scortchi - Eski Monica

Cevaplarınız için teşekkürler, @Scortchi. Yeni bir soru gönderdim ve yorumlarınızı yayınlandıktan hemen sonra gördüm. Neyse, tanımı konusunda hala net değilim. Nazik cevaplarınız için tekrar teşekkür ederiz.
JDL,

Bir örnek ekledim
Scortchi
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.