Sonuçları “son derece anlamlı” olarak belirtmek yanlış mıdır?


18

İstatistikçiler , değeri olan geleneksel seviyesinin oldukça altında olduğunda neden sonuçlara " yüksek derecede anlamlı" demekten vazgeçiyorlar ?α 0.05pα0.05

% 99,9'luk Tip I hatası ( ) olma şansına sahip olan bir sonuca, yalnızca bu şansı% 99 ( ) veren bir sonuçtan daha fazla güvenmek gerçekten yanlış mıdır ?p = 0.01p=0.001p=0.01


16
@ Gung'un cevabını burada okumak faydalı olabilir . Kısaca: Karar için "önemli vs-anlamlı değildi" veya olmadığını sadece önemli "sıfır hipotezi vs sıfır hipotezini reddetmek yok ret" -değeri sizin altındadır ayarladığınız önce çalışmaya (Neyman & Pearson ). Öte yandan, değerini, “kesikli” (Fisher) olmayan sıfır hipotezine karşı sürekli bir kanıt ölçüsü olarak kabul edebilirsiniz . αpαp
COOLSerdash

10
Düzeltilmişse, istatistikçilerinden bazı şeyleri neden duyabileceğinizi anlamanıza yardımcı olabilecek p değerleri (p değerleri hata olasılıkları değildir ) hakkında ciddi bir yanılgıya sahipsiniz.
adam

10
İtiraf ediyorum ki bazen "çok önemli" gibi ifadeler kullanıyorum. Raporların başka yerlerinde, ilk sonuçların birçoğunun çoklu test için ayarlanması gerekebilir, burada "yüksek derecede anlamlı", "çoklu karşılaştırmalar için uygun ayarlamanın ardından bile önemli kalır" şeklinde daha teknik bir anlam kazanır. Tüm okuyucular kullanıma uygun (birden fazla paydaş tarafından kullanılan analizler için nadirdir) üzerinde anlaşmış olsalar bile , "önemli" olan veya olmayan, rapora bakmadan önce her okuyucunun aklındaki hipotez setine bağlıdır. α
whuber

7
Tüm istatistikçiler bunun yanlış olduğunu söylemez. Terimi kendim (kuşkusuz nadir) vesilesiyle kullanıyorum - örneğin, bu verilerde null'un kullandığımdan çok daha düşük önem seviyelerinde çalışan insanlar tarafından reddedileceğini belirtmek için, ancak buna daha fazla anlam katmamak önemlidir olduğundan daha fazla. Sadece böyle bir cümlenin anlamını özel olarak yanlış olmaktan ziyade yorumlarken - bazen oldukça fazla - dikkatli olması gerektiğini söyleyebilirim . Bazı noktaları burada alakalı olacaktır.
Glen_b-Monica

7
(ctd) ... karşılaştırıldığında, daha büyük bir endişe, sadece ilgilendikleri soruya cevap vermeyen hipotez testlerini kullanan insanlar (bence çok sık olduğu gibi). Çok küçük bir p-değerini ifade etme biçimindeki küçük bir olumsuzluk hakkında aşırı dogmatik olmak yerine, bu göz kamaştırıcı ve önemli konuya odaklanmak daha iyidir.
Glen_b

Yanıtlar:


17

Sonuçların "son derece önemli" olduğunu söylerken çok yanlış olmadığını düşünüyorum (evet olmasına rağmen, biraz özensiz).

Bu, çok daha küçük bir önem seviyesi , sonuçları yine de anlamlı olarak değerlendirmiş olacağınız anlamına gelir . Evet bazı okuyucular çok daha küçük varsa veya buna eşdeğer a akılda sonra onlar yine de önemli bir şekilde sonuçlarınızı yargılayabilir.αα

Anlamlılık seviyesi , seyircinin gözündedir, oysa p- değeri (bazı uyarılarla) verilerin bir özelliğidir.αp

Gözlem sadece gözlemleyerek aynı değildir p = 0.04 , hem alan (standart kuralları tarafından "önemli" olarak adlandırılabilir bile, α = 0.05 ). Minik p değeri, null'a karşı daha güçlü kanıt anlamına gelir (Fisher'ın hipotez testi çerçevesini sevenler için); etki büyüklüğü etrafındaki güven aralığının, null değeri daha büyük bir marjla hariç tutacağı anlamına gelir (CI'leri p değerlerine tercih edenler için ); sıfırın posterior olasılığının daha küçük olacağı anlamına gelir (önceden bir kısmı olan Bayesliler için); bunların hepsi eşdeğerdir ve bulguların daha ikna edici olduğu anlamına gelirp=1010p=0.04α=0.05pp. Daha küçük p değerleri daha ikna edici mi? daha fazla tartışma için.

"Oldukça anlamlı" terimi kesin değildir ve olması gerekmez. Şaşırtıcı derecede büyük bir etki büyüklüğünü gözlemlemeye ve buna "büyük" (veya belki de sadece "çok büyük" olarak adlandırmaya benzer, öznel bir uzman yargısıdır. Bilimsel yazıda bile verilerinizin nitel, öznel açıklamalarını kullanmanın yanlış bir yanı yoktur; tabii ki, nesnel niceliksel analiz de sunulmalıdır.


Ayrıca yukarıdaki bazı mükemmel yorumlara bakın: +1 to @whuber, @Glen_b ve @COOLSerdash.


2
Kabul. -değeri kantitatif bir göstergedir; bu nedenle bu bağlamda konuşun, bazı bağlamlar dışında kesin olmamakla birlikte, ipso facto geçersiz değil , "Bill uzun boylu" ve "Fred gerçekten uzun boylu" demek, İngilizce'nin geçersiz kullanımıdır. Sayıları ve bağlamlarını vb. De görmek istemeliyiz. Bunların hiçbiri P < 0.05'te veya tam olarak istedikleri şekilde ne yapmak isterse kesin kararlar vermek isteyenler ya da ihtiyaç duymayanları durduramaz, ancak tercihleri ​​kurallara uymaz bu. PP<0.05
Nick Cox

Hiç özensiz değil. Resmi bir tanıma sahip olduğu iyi belgelenmiştir.
Baykuş

3

Bu yaygın bir soru.

Benzer bir soru "p <= 0.05 neden önemli kabul edilir?" ( http://www.jerrydallal.com/LHSP/p05.htm )

@ Michael-Mayer cevabın bir kısmını verdi: anlamlılık cevabın sadece bir kısmı. Yeterli veriyle, genellikle bazı parametreler "anlamlı" olarak görünür (Bonferroni düzeltmesine bakın). Birden fazla test, anlamlılık arayan büyük çalışmaların yaygın olduğu ve p-değerlerinin < 10-8 olduğu genellikle genetikte özel bir sorundur ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/ ).

Ayrıca, birçok analizle ilgili bir sorun, fırsatçı olmaları ve önceden planlanmamış olmalarıdır (yani, "Verilere yeterince işkence yaparsanız, doğa her zaman itiraf edecektir" - Ronald Coase).

Genel olarak, bir analiz önceden planlanmışsa (istatistiksel güç için tekrarlanan bir analiz düzeltmesi ile), önemli olarak kabul edilebilir. Genellikle, birden fazla kişi veya grup tarafından tekrarlanan testler, bir şeyin işe yarayıp yaramadığını doğrulamanın en iyi yoludur. Ve sonuçların tekrarı çoğunlukla önem için doğru testtir.


2

Test, siyah-beyaz bir karar için bir araçtır, yani 'gerçek bir tedavi etkisi var mı?' Gibi bir evet / hayır sorusunu cevaplamaya çalışır. Genellikle, özellikle veri kümesi büyükse, bu soru oldukça kaynak kaybıdır. Neden 'gerçek tedavi etkisi ne kadar büyük?' Gibi nicel bir soruya cevap bulmanın mümkün olup olmadığını neden ikili bir soru soruyorsunuz? evet / hayır sorusuna dolaylı olarak cevap veren? Bu nedenle, bilgi sahibi olmayan bir evet / hayır sorusunu yüksek bir kesinlik ile cevaplamak yerine, genellikle daha fazla bilgi içeren güven aralıklarının kullanılmasını öneririz.


2
+1 Bunun OP'nin sorusunu nasıl yanıtladığı konusunda daha açık olsanız da (çok açık değil).

@ Matthew: Tamamen katılıyorum.
Michael M

Teşekkürler Michael. Ama sanırım güven aralıkları ("sürekli ölçek" cevabını veren) etki büyüklüğüne atıfta bulunur, değil mi? Yine de, sürekli cevabı tamamlamak için ikili bir cevaba da ihtiyaç duyulmuyor mu, yani bu etkinin (boyutu CI'ler tarafından tarif edilen) kabul edilen α-seviyesine uygun olup olmadığı? Ya da belki p değerinin kendisi için CI verebilirsiniz?
z8080

(A) "Etki büyüklüğü" genellikle tedavi etkisinin standartlaştırılmış bir versiyonuna atıfta bulunur ve dolayısıyla, etkinin kendisinden daha az yorumlanması kolaydır. (B) Simülasyon belirsizliğini ifade etmek için simüle edilmiş p değerleri için bazen p değerleri için CI eklenir. (C) Seviyeniz 0.05 ise, hemen hemen her test durumunda, testten alınan siyah / beyaz kararı, ilgili% 95 ci'ye bakarak elde edilebilir.
Michael M

(devam) Sorunuz bir şekilde aşağıdakilerle ilgilidir:% 99,9999 ci'nin null ile uyumlu olmadığını veya gerçek etki için% 95 ci'nin alt sınırının bile çok umut verici olduğunu belirtmek daha yararlı mı?
Michael M
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.