Sonuçlara “neredeyse” veya “bir şekilde” önemli olarak bakmak yanlış mı?


13

Benzer bir soruya ilişkin genel fikir birliği, Sonuçların "son derece anlamlı" olduğunu belirtmek yanlış mı? "yüksek derecede önemli" ifadesinin, önceden belirlenmiş önem eşiğinizin çok altında p değeri olan bir ilişkilendirmenin gücünü tanımlamak için spesifik, ancak spesifik olmayan bir yol olmasıdır. Ancak, eşiğinizin biraz üzerinde olan p değerlerini açıklamaya ne dersiniz ? Bazı makalelerin "biraz önemli", "neredeyse önemli", "önem düzeyine yaklaşma" gibi terimler kullandığını gördüm. Bu terimleri biraz istekli-yıkıcı buluyorum, bazı durumlarda olumsuz sonuçlarla yapılan bir çalışmadan anlamlı bir sonuç çıkarmanın sınırsız bir yolu. Bu terimler, p değeri kesiminizi "özleyen" sonuçları tanımlamak için kabul edilebilir mi?


3
Hiç kimsenin "bir birlikteliğin gücünü" tanımlamak için nitelik "önermeyi" önerdiğine inanmıyorum; ikincisi daha çok efekt boyutunun bir ölçüsü gibi geliyor. Her neyse, daha dolu bir liste için buraya bakın .
Scortchi - Eski durumuna getirin Monica

1
@Scortchi - Anladığım kadarıyla, çok küçük bir p değeri oldukça önemlidir, bu da söz konusu değişken ile hedef arasında güçlü bir ilişki anlamına gelir. Bu, büyük bir etki boyutunun, çok fazla verinin veya her ikisinin sonucudur. Büyük p değerleri için değişken ve hedef arasındaki ilişkiyi destekleyen kanıtlar zayıftır. Ayrıca, bağlantınızdaki bu listeyi seviyorum.
Nükleer Wang

9
Küçük bir etki büyüklüğü için çok küçük bir p değeri elde etmek, nadiren "güçlü bir ilişki" olarak adlandırılabilir. Sadece tespit edilebilir bir ilişki olurdu .
whuber

2
Bu cümleleri akademik makalelerde değil, sektörde çok kullanan insanlar gördüm.
Aksakal

1
Belki de rahatsızlığınız, p değerlerinin (veya bir örnekten türetilen başka herhangi bir sayının) bir şeyin keskin ölçümleri olduğuna inanmaktan kaynaklanır.
Eric Towers

Yanıtlar:


14

"Anlamlılık" derecelerinin kabul edilmesine izin vermek istiyorsanız, o zaman yeterince adil ("biraz önemli", "oldukça önemli"), ancak "neredeyse önemli" gibi bir eşik fikrine hala bağlı olduğunuzu gösteren ifadelerden kaçının. , "önem yaklaşıyor" veya "önemsizliğin eşiğinde" ( umutsuz görünmek istemiyorsanız, " Olası Hata " blogunda "Hala Önemli Değil" adlı favorim ).


9
(+1) bağlantısını tıklayın. Ama bence şiirsel yaratıcılığın en önemli özelliği "önem eşiğinde sallanıyor (p = 0.06)" .
Alecos Papadopoulos

1
@AlecosPapadopoulos: Haklısın, ama "geleneksel anlamlılık düzeyleriyle flört etmek" & "istatistiksel öneme daha yakın olmak" onurlu sözleri hak ediyor. "Yarı anlamlı" belki de farklı bir kategoride kazanır.
Scortchi - Monica'yı eski durumuna döndürün

4
Nitekim ilk iki gerçek sinematografik ruhunun filmi "İstatistiksel Gigolo" (başka kim olur itibaren, ilk olarak flört bir ile geleneksel düzeyde ?) Biz tehditkar akbaba, bkz "Tail üzerinde Dying" filminden ikinci olurken ölmekte olan kahramanın üzerine gelmek (p-değeri) (istatistiksel anlamlılık).
Alecos Papadopoulos

1
Şahsen, kelime öbeklerimde 'anlamlı' kelimesini terk edip p = 0.06 'oldukça ilginç' diyorum. Doğru ya da yanlış, bir Altı Sigma kursu içinde p-değerleriyle ilk karşılaştığımda, eğitmen 0.05 <= 0.1 için doğru etiketin 'daha fazla veri gerekli' olduğunu önerdi (ek veri noktalarının elde edilmesinin zor olduğu bir endüstriyel ayara bağlı olarak) , herhangi bir 'Büyük Veri' senaryosundan tamamen farklı
Robert de Graaf

6

Benim bakış açımdan, bu konu bir önem testi yapmanın gerçekte ne anlama geldiğine bağlı. Anlamlılık testi ya sıfır hipotezini reddetme ya da reddetmeme kararı verme aracı olarak tasarlanmıştır. Fisher bu (keyfi) kararı vermek için meşhur 0.05 kuralını getirdi.

Temel olarak, anlamlılık testi mantığı, kullanıcının veri toplamadan önce sıfır hipotezini (geleneksel olarak 0.05) reddetmek için bir alfa seviyesi belirtmesi gerektiğidir . Anlamlılık testini tamamladıktan sonra, p değeri alfa seviyesinden küçükse (veya başka türlü reddetmezse) kullanıcı null değerini reddeder.

Bir etkiyi son derece anlamlı (örneğin 0.001 düzeyinde) olarak ilan edememenizin nedeni, bulmaya hazır olduğunuzdan daha güçlü kanıt bulamamanızdır. Bu nedenle, alfa seviyenizi testten önce 0,05 olarak ayarlarsanız, p değerlerinizin ne kadar küçük olduğuna bakılmaksızın yalnızca 0,05 düzeyinde kanıt bulabilirsiniz. Aynı şekilde, "biraz anlamlı" veya "anlamlılığa yaklaşan" etkilerden bahsetmek de pek mantıklı değildir çünkü 0,05 olan bu rastgele kriteri seçtiniz. Anlamlılık testi mantığını tam anlamıyla yorumluyorsanız, 0.05'ten büyük herhangi bir şey önemli değildir.

"Öneme yaklaşma" gibi terimlerin yayınlanma şansını artırmak için sıklıkla kullanıldığını kabul ediyorum. Bununla birlikte, yazarların bunun için suçlanabileceğini düşünmüyorum, çünkü bazı bilimlerdeki mevcut yayın kültürü hala 0.05'in "kutsal kasesine" dayanmaktadır.

Bu konuların bazıları şu konularda tartışılmaktadır:

Gigerenzer, G. (2004). Akılsız istatistikler. Sosyo-Ekonomi Dergisi, 33 (5), 587-606.

Royall, R. (1997). İstatistiksel kanıt: bir olasılık paradigması (Cilt 71). CRC tuşuna basın.


1
Fisher'in önem testine alfa düzeyi eklerseniz, Fisherian bilim felsefesini Neyman / Pearson yaklaşımıyla karıştırıyorsunuz.
RBirkelbach

5

Bu kaygan eğim, sıfır hipotez önem testi (NHST) için Fisher vs Neyman / Pearson çerçevesine geri dönüyor. Bir yandan, bir sonucun sıfır hipotezi altında ne kadar olası olmadığını (örneğin, etki boyutları) nicel olarak değerlendirmek ister. Öte yandan, günün sonunda sonuçlarınızın tek başına şansa bağlı olup olmadığına dair kesin bir karar istiyorsunuz. Sonuçta, tatmin edici olmayan bir tür melez yaklaşım var.

Çoğu disiplinde, anlam için konvansiyonel p 0,05 olarak belirlenmiştir, ancak bunun neden böyle olması gerektiğine dair gerçekten bir temel yoktur. Bir makaleyi gözden geçirdiğimde, metodolojinin sağlam olması ve tüm analizler, şekiller vb.Gibi tüm resmin tutarlı ve inandırıcı bir hikaye anlatması şartıyla, 0.06 anlamlı hatta 0.07 çağıran bir yazarla kesinlikle hiçbir sorunum yok. Sorunlarla karşılaştığınız yer, yazarların küçük efekt boyutlarıyla önemsiz verilerden bir hikaye oluşturmaya çalışmasıdır. Tersine, bir testin geleneksel p <0.05 önemine ulaştığında bile pratik olarak anlamlı olduğuna tamamen 'inanamayabilirim'. Bir meslektaşım bir keresinde şöyle dedi: "İstatistikleriniz, rakamlarınızda zaten görünenleri yedeklemeli."

Hepsi dedi, Vasilev'in doğru olduğunu düşünüyorum. Kırık yayın sistemi göz önüne alındığında, p değerlerini eklemeniz gerekir ve bu nedenle "marjinal olarak" (tercih ettiğim) gibi sıfatlar gerektirse bile, ciddiye alınması için 'anlamlı' kelimesini kullanmanız gerekir. Akran değerlendirmesinde her zaman onunla savaşabilirsin, ama önce oraya gitmelisin.


5

İki p-değeri arasındaki fark tipik olarak anlamlı değildir. Bu nedenle, p değerinin 0,05, 0,049, 0,051 olması önemli değildir ...

Birliğin kuvvetinin bir ölçüsü olarak p-değerleri ile ilgili olarak: Bir p-değeri, doğrudan bir ilişkinin gücünün bir ölçüsü değildir. Bir p değeri, parametrenin 0 olduğu varsayılırsa, gözlemlediğiniz veriler kadar aşırı veya daha fazla veri bulma olasılığıdır (eğer sıfır hipoteziyle ilgileniyorsa - bkz. Nick Cox'nun yorumu). Ancak, bu genellikle araştırmacının ilgilendiği miktar değildir. Birçok araştırmacı, "parametrenin seçilen bazı kesme değerlerinden daha yüksek olma olasılığı nedir?" Gibi soruları yanıtlamakla ilgilenmektedir. İlgilendiğiniz buysa, modelinize ek ön bilgiler eklemeniz gerekir.


6
Bunun ruhuna katılıyorum, ancak küçük baskı her zaman tam olarak uyanıklığa ihtiyaç duyuyor. "parametrenin 0 olduğu varsayılırsa": genellikle, ancak her zaman değil. P-değerleri diğer hipotezler için de hesaplanabilir. Ayrıca, "varsayılan" okumak için "hipotez" okuyun.
Nick Cox

Tamamen haklısın - Cevabımı düzenleyeceğim!
RBirkelbach

3

"Neredeyse önemli" nin anlamlı olup olmadığı, kişinin istatistiksel çıkarım felsefesine bağlıdır. Alfa seviyesini kumdaki bir çizgi olarak kabul etmek tamamen geçerlidir, bu durumda sadece veya olup olmadığına dikkat edilmelidir . Böyle bir "mutlakiyetçi" için, "neredeyse önemli" anlamsızdır. Ancak p değerlerini sürekli destek gücü ölçüsü sağlamak olarak düşünmek de mükemmel bir şekilde geçerlidir.p<αp>α(elbette etki gücü değil). Böyle bir "sürekliist" için, "neredeyse anlamlı" bir sonucu orta derecede p-değeri ile tanımlamanın mantıklı bir yoludur. Sorun, insanlar bu iki felsefeyi karıştırdıklarında ortaya çıkıyor - ya da daha kötüsü, her ikisinin de var olduğunun farkında değil. (Bu arada - insanlar genellikle bu haritayı Neyman / Pearson ve Fisher üzerine temiz bir şekilde kabul ederler, ancak yapmazlar; dolayısıyla benim için kuşkusuz beceriksiz terimler). Bununla ilgili daha fazla ayrıntıyı bu konuyla ilgili bir blog yayınında bulabilirsiniz: https://scientistseessquirrel.wordpress.com/2015/11/16/is-nearly-significant-ridiculous/


1

Bir şeyin neredeyse istatistiksel olarak anlamlı olduğunu söylemek teknik açıdan doğru değildir. Tolerans seviyenizi ayarladıktan sonra istatistiksel anlamlılık testi yapılır. Örnekleme dağılımları fikrine geri dönmelisiniz. Tolerans seviyeniz 0,05 ise ve 0,053 p değeri elde ediyorsanız, kullanılan numunenin bu istatistiği vermesi tesadüf olabilir. Aynı sonuçları veremeyebilecek başka bir örnek alabilirsiniz - Bence bu gerçekleşme olasılığının örnek istatistiğine değil, ayarlanan tolerans düzeyine dayandığını düşünüyorum. Örnekleri bir popülasyon parametresine göre test ettiğinizi ve örneklerin kendi örnekleme dağılımına sahip olduğunu unutmayın. Bence ya bir şey istatistiksel olarak anlamlı ya da değil.


0

P değeri, altında üzerinde eşit olarak dağıtılır, bu nedenle p değeri 0.051 ile sonuç almak, 1 değeri p değeriyle sonuç almak kadar olasıdır. veri almadan önce önem düzeyini ayarlayın her p değeri için null değerini reddedersiniz . Null değerinizi reddetmediğiniz için, düzgün dağıtılmış bir p değeri varsaymanız gerekir, daha yüksek veya daha düşük bir değer aslında anlamsızdır.[0,1]H0p>α

Null değerini reddettiğinizde bu tamamen farklı bir öyküdür, çünkü p değeri altında eşit olarak dağıtılmaz, ancak dağılım parametreye bağlıdır.H1

Bkz. Örneğin Wikipedia .


Seni tam olarak takip etmiyorum. Evet, herhangi bir sürekli dağılımda, tam olarak 0.051 sonucunu alma olasılığı, tam olarak 1 sonucunu alma olasılığına eşittir - sıfırdır. Ancak hipotez testi, en azından gözlemlenen değer kadar aşırı bir değer görme olasılığını inceler . Her zaman en az 1 kadar aşırı bir p değeri bulacaksınız, ancak p değerini 0.051 kadar aşırı görmeniz daha az olasıdır. Bu farkı "anlamsız" yapan nedir?
Nükleer Wang

Null değerinin altında, [0.05,0.051] aralığında bir p değeri gözlemlenmesi, [0.999,1] aralığında bir p değerini gözlemlemesi muhtemeldir. Eşik değerine daha yakın bir p-değerini gözlemlemek, red alanı dışında başka bir p-değerini gözlemlemek olarak 0'a karşı daha fazla kanıt değildir.
snaut

Bazıları 0,05 anlamlı olarak adlandırır, bazıları ise eşik olarak 0,01 veya 0,1 kullanır. Dolayısıyla, aynı analizi yapan ve 0,03 p değeri bulan 3 araştırmacı arasında, ikisi anlamlı olarak adlandırılabilir ve biri olmayabilir. Hepsi 0.91'lik bir p değeri bulursa, hiçbiri buna anlamlı demez. Eşik değerine daha yakın bir p değeri, daha fazla kişinin boş değeri reddetmek için yeterli kanıt olduğunu kabul edeceği anlamına gelir. H1 için destek açısından neden p = 0.051 ve p = 1'in ayırt edilemez olması gerektiğini anlamıyorum - bazı insanlar H1'i p = 0.051 ile haklı olarak destekleyecek; kimse bunu p = 1 ile yapmayacak.
Nükleer Wang
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.