Hipotez testinde p değerinin yorumlanması


36

Geçenlerde "Boş Hipotez Önemlilik Testinin Önemsizliği", Jeff Gill (1999) adlı makaleyle karşılaştım . Yazar, hipotez testi ve p-değerleri ile ilgili iki özel sorum var.

  1. P-değeri teknik olarak kağıdı ile sivri dışarı olarak, genellikle bize yaklaşık bir bilgi vermez, , marjinal dağılımları bilmediğimiz sürece, "günlük" hipotez testlerinde nadiren durum böyledir. Küçük bir p değeri elde ettiğimizde ve "sıfır hipotezini reddettiğimizde" hakkında bir şey söyleyemediğimiz için yaptığımız olasılıksal ifade tam olarak nedir?p ( lH 0 | o B s e r v bir T i O , n ) P ( lH 0 | o B s e r v bir T ı o n )P(observation|H0)P(H0|observation)P(H0|observation)
  2. İkinci soru, makalenin 6. sayfasındaki (652) belirli bir ifadeyle ilgilidir:

P-değeri veya yıldızlarla gösterilen p-değerleri aralığı önceden ayarlanmadığından, Tip I hatası yapma konusunda uzun vadeli bir olasılık değildir, ancak tipik olarak olduğu gibi kabul edilir.

Bu ifadenin ne anlama geldiğini açıklamak için herhangi biri yardımcı olabilir mi?


Gazeteye referans için TY
Ludovic Kuty

@ezbentley: belki de benim cevabı bir llok almaya ilginç: stats.stackexchange.com/questions/166323/...

Yanıtlar:


33

(Teknik olarak, P değeri, boş hipotezi göz önüne alındığında, en azından gerçekte olduğu kadar uç verileri gözlemleme olasılığıdır .)

S1. Boş hipotezi küçük bir P-değeri temelinde reddetme kararı tipik olarak 'Fisher'ın bağlantısının kesilmesine' bağlıdır: Nadir bir olay oldu ya da boş hipotezi yanlıştır. Aslında, olayın nadir olması, boş değerin yanlış olma ihtimalinden ziyade P-değerinin size söylediği şeydir.

Boş değerin yanlış olma olasılığı, deneysel verilerden yalnızca boş hipotezin 'muhtemelen' marjinal dağılımlar olarak adlandırdığı '' varsayımına sahip olma olasılığını 'gerektiren' Bayes 'teoremi ile elde edilebilir.

S2. Sorunuzun bu kısmı göründüğünden çok daha zor. P-değerleri ve hata oranlarıyla ilgili, muhtemelen, Gill’in "ancak tipik olarak böyle muamele gördüğü" ifadesiyle ilgili çok fazla karışıklık var. Fisherian P değerlerinin Neyman-Pearsonian hata oranlarıyla birleşimi tutarsız bir karmakarışık olarak adlandırıldı ve ne yazık ki çok yaygın. Burada kısa bir cevap tamamen yeterli olmayacak, ancak sizi birkaç iyi makaleye yönlendirebilirim (evet, biri benim). Her ikisi de Gill kağıtlarını anlamanıza yardımcı olacaktır.

Hurlbert, S. ve Lombardi, C. (2009). Neyman-Pearson karar teorik çerçevesinin son çöküşü ve neoFisherian'ın yükselişi. Annales Zoologici Fennici, 46 (5), 311-349. (Kağıda bağlantı)

Lew, MJ (2012). Farmakolojide kötü istatistiksel uygulama (ve diğer temel biyomedikal disiplinler): muhtemelen bilmiyorsunuz P. British Journal of Pharmacology, 166 (5), 1559-1567. doi: 10.1111 / j.1476-5381.2012.01931.x ( Kağıda bağlantı)


Açıklama için teşekkürler. Böyle bir açıklama yapmak teknik olarak yanlış mıdır "the small p-value indicates that the sample mean(or regression coefficient, etc) is significantly different from zero"? Karışıklık kaynağı, sıfırın "reddedildiğini" söylediğimizde, sıfır hipotezine yönelik gerçek bir olasılıksal iddiada bulunulmadığı görülüyor.

2
@ezbentley, bu gerçekten ne demek istediğinle ilgilidir. Bu kelime çoğu bağlamda pek anlamlı değil çünkü Fisher-Neyman-Pearson melezi tarafından kirletildi. Çok küçük bir P değeri elde ettiyseniz, gerçek ortalamanın sıfır olmadığını söylemek doğru olur, ancak gözlemlenen ortalamanın ne olduğunu söylemek ve değişkenliğini (SEM veya güven aralığı) belirtmek önemlidir; Örneklem büyüklüğünün ne olduğunu söylemeyi unutma. P değeri, gözlenen etki büyüklüğünün belirtilmesinin yerini almaz.
Michael Lew

Açıklama için teşekkür ederim. Fisher ve Neyman-Pearson paradigmasına derinlemesine bakmam gerekiyor.

: @Michael Lew: Belki bir cevabım bakmak ilginç olabilir stats.stackexchange.com/questions/166323/...

S1’deki paragrafınız muhtemelen şu ana kadar gördüğüm konunun en iyi açıklaması. Teşekkür ederim.
Maxim.K

22

+1 to @MichaelLew, size iyi bir cevap vermiştir. Belki de 2. Çeyrek hakkında düşünmenin bir yolunu sunarak katkıda bulunabiliyorum. Aşağıdaki durumu göz önünde bulundurun:

  • Boş hipotez doğrudur. (Eğer boş hipotez doğru değilse , I tipi hataların mümkün olmadığını ve değerinin ne anlama geldiği net değildir .) p
  • 0.05α geleneksel olarak olarak ayarlandı . 0.05
  • Hesaplanan -değeri olan . 0.01p0.01

Şimdi, verilerinizi verilerinizden daha aşırı ya da daha çok aşırı alma olasılığı % 1'dir ( değerinin anlamı budur). Boş bir hipotezi reddettiniz ve bir tip I hata yaptınız . Uzun vadede I tipi hata oranının bu durumda% 1 olduğu ve birçok kişinin sezgisel olarak sonuçlayabileceği doğru mu? Cevap hayır . Bunun nedeni, bir değeri almış olsaydınız, yine de boş değeri reddedersiniz. Aslında, hatta eğer null adlı reddedilen olurdu olmuştu ve uzun vadede, 'oluşacak bu büyük a bağlıp p 0.02 p 0.04 ˉ 9 p αp0.02p0.049¯pZamanın% 5'i ve tüm bu reddedilmeler I tipi hatalar olacaktır. Dolayısıyla, uzun çalışma tipi I hata oranı% 5'tir ( aldığınız yerde ). α

(Açıklama: Gill'in makalesini okumamıştım, bu yüzden bunun ne anlama geldiğini garanti edemiyorum, ancak değerinin uzun vadede tür I hata oranıyla [mutlaka] aynı olmadığı iddiasını anlamlıdır . )p


1
H_0 = 0 hipotezinin gerçekte doğru olduğuna inanmanın zaman zaman zor olduğu bir alanda (epi) çalışmak, bu noktanın göz ardı edildiğini ve daha fazla dikkat edilmeyi hak ettiğini düşünüyorum.
Boscovich

1
Sadece anlayışımın doğru olduğundan emin olmak için. P-değerinin kendisi rastgele bir değişkendir ve Tip-I hatası bu rastgele değişkenin daha düşük olma olasılığıdır . Bu doğru mu? α

1
+1, ancak boş değer yanlış olduğunda P değerinin anlamının açık olmadığı önerisi. P değeri ne kadar küçük olursa, boş değer ile gözlenen arasındaki fark o kadar büyük olur. Örnek boyutu büyüdükçe, gerçek etki büyüklüğünün gözlenen etki büyüklüğüne daha yakın olduğu varsayılabilir. Anlamlılık testinin tahmine benzer olduğunu not etmek çok yararlıdır.
Michael Lew

3
@ MichaelLew, p-değerinin bu gibi şeyleri kendi başına ifade ettiğinden emin değilim. W / N (ve spesifik olarak, N'yi sabit tutma) ile birlikte, daha küçük bir p null ve gözlenen b / t daha büyük bir tutarsızlığa karşılık gelecektir. O zaman bile, p'nin ifade ettiği şeyden ziyade p'den çıkarılabilecek bir şey daha var . Ayrıca, gözlemlenen etki büyüklüğünün w / w büyüklüğünün, gerçek ES'lere daha yakın olması gerektiği doğrudur, ancak, p'nin orada nasıl bir rol oynadığı bana daha az açıktır. EG, yanlış / boş, gerçek etki hala çok küçük olabilir, & büyük / büyük N, gözlenen ES'nin yakın olmasını bekleriz, ancak p hala büyük olabilir.
gung - Monica

1
@gung, Bu makaleyi <ftp.stat.duke.edu/WorkingPapers/03-26.pdf> Hubbard tarafından okuyorum. 12. sayfada, ...this fallacy shows up in statistics textbooks, as when Canavos and Miller (1999, p.255) stipulate: "If the null hypothesis is true, then a type I error occurs if (due to sampling error) the P-value is less than or equal to $alpha$"tip-I hatasının tam null olursa, p değerinin değerinden daha düşük olduğunu düşündüğümü belirtiyor . Öyleyse neden Hubbard alıntı yapılan ifadenin yanlış olduğunu söylüyor? Bir şekilde yanlış mı yorumluyorum? α

8

"Boş hipotez anlamlılık testinin önemsizliği" ile ilgili bir yorum yapmak istiyorum, ancak OP sorusunu cevaplamıyor.

Benim düşünceme göre, asıl sorun değerinin yanlış yorumlanması değildir . Birçok uygulayıcı genellikle örneğin "önemli bir fark" ı test eder ve yanlış bir şekilde önemli bir farkın "büyük" bir fark olduğu anlamına geldiğine inanırlar. Daha doğrusu bunlar şeklinde bir "kesin" boş hipotezi bağlamındadırlar . Bu hipotez , numune boyutu arttığında çok küçük bir bile olduğunda reddedilecektir . Ama gerçek dünyada, küçük arasında hiçbir fark yoktur ve (biz olduğunu söylüyor denklik küçük arasına ve, H 0 H 0 : { θ = 0 } θ = ε ε ε 0 ε 0pH0H0:{θ=0}θ=ϵϵϵ0ϵ0 ve eşdeğerlik testi böyle bir durumda gitmenin yoludur).


3
+1 Evet, konvansiyonel hipotez testleriyle ilgili asıl sorun, cevaplamak istemediğiniz bir soruyu yanıtlamanızdır, yani “önemli bir farkın kanıtı var mı? ". Elbette gerçekten istenen şey "genel olarak araştırma hipotezimin gerçek olma olasılığı nedir?" Dır, ancak bu sıkça bir çerçevede cevaplanamaz. Yanlış yorumlama, genellikle frekans testini Bayesian terimlerle tedavi etme girişimlerinden kaynaklanmaktadır.
Dikran Marsupial

1
P değerlerinin anlamını ve örneklem büyüklüğünü ayırmak iyi bir fikir değildir. Daha küçük bir P değeri, herhangi bir belirli numune büyüklüğünde daha büyük bir etki büyüklüğünü gösterir ve herhangi bir özel P değeri için daha büyük bir örnek büyüklüğü, gerçek etki büyüklüğünün muhtemelen gözlenen etki büyüklüğüne daha yakın olduğunu gösterir. Önemlilik testleri hata bağlamında değil tahmin bağlamında düşünülmelidir. Daha büyük bir örnek her zaman daha fazla bilgi verir - nasıl yorumlanacağı deneye bağlıdır. Örneklemin ihmal edilebilir büyük etki şikayeti, yalnızca Neyman-Pearson hipotezi testi için bir sorundur.
Michael Lew
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.