Efekt boyutları gerçekten p-değerlerinden daha mı üstün?


14

Uygulamalı araştırmada p-değerlerinden ziyade etki büyüklüklerine güvenmek ve bunları raporlamaya çok fazla önem verilmektedir (örneğin, aşağıdaki alıntılar).

Ama bu durum böyle değildir etki boyutu sadece gibi p-değeri a, rastgele değişken ve bu şekilde kutu aynı deney tekrarlanmıştır zaman örnekten örneğe değişebilir? Başka bir deyişle, hangi istatistiksel özelliklerin (örneğin, etki büyüklüğünün numuneden numuneye p değerinden daha az değişken olduğunu) efekt büyüklüklerini p değerlerinden daha iyi kanıt ölçüm indeksleri yaptığını soruyorum.

Bununla birlikte, bir p-değerini bir etki büyüklüğünden ayıran önemli bir gerçekten bahsetmeliyim. Yani, etki büyüklüğü tahmin edilecek bir şeydir çünkü bir nüfus parametresine sahiptir, ancak herhangi bir nüfus parametresine sahip olmadığı için p değeri tahmin edilecek bir şey değildir.

Bana göre, etki büyüklüğü, belirli araştırma alanlarında (örneğin, insan araştırması) çeşitli araştırmacı tarafından geliştirilen ölçüm araçlarından gelen ampirik bulguların ortak bir metriğe dönüştürülmesine yardımcı olan bir metriktir (bu metrik insan araştırmasını kullanmak daha uygun olabilir miktar araştırma kulübü).

Belki bir etki büyüklüğü olarak basit bir oran alırsak, etki boyutlarının p-değerleri üzerindeki üstünlüğünü gösteren aşağıdaki (R cinsinden) nedir? (p değeri değişir, ancak efekt boyutu değişmez)

binom.test(55, 100, .5)  ## p-value = 0.3682  ## proportion of success 55% 

binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%

Çoğu efekt boyutunun bir test istatistiğiyle doğrusal olarak ilişkili olduğunu unutmayın. Bu nedenle, etki büyüklüklerini kullanarak sıfır hipotez testi yapmak kolay bir adımdır.

Örneğin, bir post-post tasarımından kaynaklanan t istatistiği kolaylıkla karşılık gelen Cohen'in d efekt büyüklüğüne dönüştürülebilir. Bu nedenle, Cohen'in d dağılımı basitçe dağıtımdaki ölçek-konum versiyonudur.

Alıntılar:

P-değerleri birbirine karışmış endeksler olduğu için, teoride, farklı numune boyutlarına ve 100 farklı etki büyüklüğüne sahip 100 çalışmanın her biri aynı tek p değerine sahip olabilir ve aynı tek etki büyüklüğüne sahip 100 çalışmanın her biri, p-değeri için 100 farklı değere sahip olabilir .

veya

p-değeri, numuneden numuneye değişen rastgele bir değişkendir. . . . Sonuç olarak, iki ayrı deneyden veya aynı deneyde ölçülen iki değişken üzerindeki testlerden p-değerlerini karşılaştırmak ve birinin diğerinden daha önemli olduğunu beyan etmek uygun değildir?

Alıntılar:

Thompson, B. (2006). Davranış istatistiklerinin temelleri: İçgörü temelli bir yaklaşım. New York, NY: Guilford Press.

İyi, PI ve Hardin, JW (2003). İstatistiklerdeki yaygın hatalar (ve bunlardan nasıl kaçınılacağı). New York: Wiley.


12
Alıntılardan aynı sonuçları çıkarmıyorum (bu etki büyüklükleri "üstün" veya p değerleri yerine raporlanmalıdır). Bazı insanların böyle ifadeler yaparak aşırı tepki verdiklerinin farkındayım (p değerlerine BASP yasağı gibi). Bu bir ya da diğer bir durum değildir: p-değerlerinin ve efekt boyutlarının farklı türde yararlı bilgiler verdiğine dikkat çekmek gerekir. Genellikle biri diğeri bağlamında değerlendirilmeden incelenmemelidir.
whuber

1
Şahsen bir tahmin raporunun bir güven aralığı ile birlikte raporlanması yeterlidir. Etki büyüklüğünü (pratik anlamlılık) ve hipotez testini (istatistiksel anlamlılık) aynı anda verir.
Jirapat Samranvedhya

1
P değerlerinin veya efekt boyutlarının 'üstün' olup olmadığı bakış açınıza bağlıdır. İlki Fisherian NHST geleneğinden, ikincisi ise Neyman-Pearson geleneğinden gelir. Bazı alanlarda (biyolojik bilimler, beşeri bilimler), etki boyutları çok küçük olma eğilimindedir ve p değerlerini çekici kılar. Diğer taraftan, diğerlerinin de belirttiği gibi, p değerleri, artan N gibi tasarım değişiklikleri ile 'zorlanabilir'.
HEITZ

3
Bir tornavida bir çekiçten daha üstün mü?
kjetil b halvorsen

Somun cıvatadan üstün mü?
Sextus Empiricus

Yanıtlar:


21

P değerleri yerine etki boyutları sağlama tavsiyesi yanlış bir ikilem üzerine kuruludur ve saçmadır. Neden her ikisini de sunmuyorsunuz?

Bilimsel sonuçlar, mevcut kanıtların ve teorinin rasyonel bir değerlendirmesine dayanmalıdır. P değerleri ve gözlenen etki büyüklükleri tek başına veya birlikte yeterli değildir.

Sağladığınız alıntılardan hiçbiri yardımcı olmaz. Elbette P-değerleri deneyden deneye değişir, verilerdeki kanıtların gücü deneyden deneye değişir. P değeri, bu kanıtın istatistiksel model yoluyla sayısal olarak çıkarılmasıdır. P-değerinin doğası göz önüne alındığında, bir P-değerini diğeriyle karşılaştırmak analitik amaçlarla çok nadiren ilgilidir, belki de alıntı yazarının aktarmaya çalıştığı şey budur.

K-değerlerini karşılaştırmak istediğinizi düşünüyorsanız, muhtemelen ilgili soruyu anlamlı bir şekilde cevaplamak için verilerin farklı bir düzenlemesinde bir önem testi yapmış olmalısınız. Şu sorulara bakın: p-değerleri için p-değerleri? ve Bir grubun ortalaması sıfırdan farklı, ancak diğerinin değişmemesi durumunda, grupların farklı olduğu sonucuna varabilir miyiz?

Yani, sorunuzun cevabı karmaşık. Yararlı olması için P değerlerine veya efekt boyutlarına dayalı verilere iki yönlü yanıt bulamıyorum, bu yüzden etki boyutları P değerlerinden daha üstün mü? Evet, hayır, bazen, belki ve amacınıza bağlıdır.


Analistin eldeki çalışma için anlamlı bir etki büyüklüğünün ne olduğunu doğru bir şekilde ifade edebilmesi koşuluyla, etki büyüklüğünü ve güven aralığını sunmanın tercih edileceğini düşünüyorum. Güven aralığı, p değerinin aksine, okuyucuya hem tahminin kesinliği hem de ekstremitesi hakkında bir fikir verir.
AdamO

1
@AdamO Evet, büyük ölçüde katılıyorum, ancak P-değerinin sunabileceği iki şey var ve atlanmamalıdır. Null'a karşı kanıt gücünün bir indeksidir, sadece çok deneyimli bir gözle güven aralığından elde edilebilecek bir şeydir ve kesin bir P değeri, güven aralığının yaptığı iç / dış ikiliği doğrudan davet etmez . Elbette, bir olasılık fonksiyonu her ikisine göre avantajlar sunar.
Michael Lew

14

Uygulamalı araştırma bağlamında, okuyucuların bulguların pratik önemini (istatistiksel anlamlılığın aksine) yorumlamaları için etki boyutları gereklidir. Genel olarak, p-değerleri numune boyutuna etki boyutlarından çok daha duyarlıdır. Bir deney bir etki büyüklüğünü doğru bir şekilde ölçerse (yani tahmin ettiği popülasyon parametresine yeterince yakınsa) ancak anlamlı olmayan bir p değeri verirse, her şey eşittir, örnek boyutunu artırmak aynı etki büyüklüğüne neden olur, ancak daha düşük bir p değeri. Bu, güç analizleri veya simülasyonlarla gösterilebilir.

Bunun ışığında, pratik önemi olmayan efekt boyutları için yüksek derecede anlamlı p değerleri elde etmek mümkündür. Buna karşılık, düşük güce sahip çalışma tasarımları, büyük pratik önemi olan etki boyutları için anlamlı olmayan p-değerleri üretebilir.

Belirli bir gerçek dünya uygulaması olmadan etki büyüklüğü karşısında istatistiksel anlamlılık kavramlarını tartışmak zordur. Örnek olarak, yeni bir çalışma yönteminin öğrencilerin not ortalaması (GPA) üzerindeki etkisini değerlendiren bir deneyi düşünün. 0.01 derece puanlık bir etki büyüklüğünün pratik önemi çok azdır (yani 2.51'e kıyasla 2.50). Hem tedavi hem de kontrol grubunda 2.000 öğrencinin örnek büyüklüğünün ve 0.5 puanlık bir popülasyon standart sapmasının varsayılması:

set.seed(12345)
control.data <- rnorm(n=2000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=2000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE) 

tedavi örneği ortalaması = 2.51

kontrol numunesi ortalaması = 2,50

etki büyüklüğü = 2,51 - 2,50 = 0,01

p = 0.53

Örneklem büyüklüğünün 20.000 öğrenciye çıkarılması ve diğer her şeyin sabit tutulması önemli bir p değeri verir:

set.seed(12345)
control.data <- rnorm(n=20000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=20000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE)  

tedavi örneği ortalaması = 2.51

kontrol numunesi ortalaması = 2,50

etki büyüklüğü = 2,51 - 2,50 = 0,01

p = 0.044

Açıkçası, örneklem büyüklüğünü bir büyüklük sırasına göre arttırmak önemsiz bir şey değildir! Bununla birlikte, bu çalışma yönteminin sunduğu pratik iyileşmenin ihmal edilebilir olduğunu hepimiz kabul edebiliriz. Eğer sadece p-değerine güveniyorsak, n = 20,000 durumuna başka türlü inanabiliriz.

Şahsen ben hem p değerlerini hem de etki büyüklüklerini bildirmeyi savunuyorum. Ve t- veya F-istatistikleri, serbestlik derecesi ve model teşhisi için bonus puanlar!


2
Darren, lütfen R'de tam olarak ne demek istediğini veya PO gibi bir şey göster.
user138773

7
@Darrent James p = 0,05'in saygı duyulması gereken parlak bir çizgi olduğu talihsiz varsayımının ötesinde p = 0,065 ile p = 0,043 arasındaki farkta pratik bir önemi yoktur. Her iki P-değeri de tek başına herhangi bir şey için veya ona karşı zorlayıcı kanıtları temsil etmez.
Michael Lew

@Michael Lew Evet, katılıyorum!
Darren James

1
James, kodunuz ve açıklamalarınız göz önüne alındığında, OP'nin noktasını tamamen yanlış anlamışsınız gibi görünüyor. R kodunuz da yanlış! Eğer belirlemediğinizden var.equal = TRUEsizin süre sds eşittir. Böyle bir arka planla, neden böyle bir yanıt yayınladığınızdan emin değilim. OP en azından şu anda kolay bir cevabı olmayan bir soru soruyor!
user138773

1
Koda var.equal = TRUE ekledim. Ancak bu durumda gereksizdir. Aynı p değerleri hem var.equal = TRUE hem de varsayılan var.equal = FALSE ile elde edilir.
Darren James

5

Şu anda veri bilimi alanında çalışıyorum ve daha önce eğitim araştırmalarında çalıştım. Her bir "kariyer" de istatistiklerde resmi bir geçmişe sahip olmayan ve istatistiksel (ve pratik) önem vurgularının p değerine yoğunlaştığı insanlarla işbirliği yaptım . Analizlerime etki boyutlarını dahil etmeyi ve vurgulamayı öğrendim çünkü istatistiksel anlamlılık ile pratik anlamlılık arasında bir fark var.

Genel olarak birlikte çalıştığım insanlar "programımız / özelliğimiz evet ya da hayır yapar mı, etkiler mi?" Böyle bir soru için, t-testi kadar basit bir şey yapabilir ve onlara "evet, programınız / özelliğiniz bir fark yaratır" raporunu verebilirsiniz. Ama bu "fark" ne kadar büyük veya küçük?

İlk olarak, bu konuyu incelemeye başlamadan önce, efekt boyutlarından bahsederken neyi ifade ettiğimizi özetlemek istiyorum

Efekt boyutu , iki grup arasındaki farkın boyutunu ölçmenin bir yoludur. [...] Bazı karşılaştırmaya göre belirli bir müdahalenin etkinliğini ölçmek özellikle değerlidir. ' Basit çalışıyor mu , çalışmıyor mu?' çok daha karmaşık, 'Bir dizi bağlamda ne kadar iyi çalışıyor?' Dahası, bir müdahalenin en önemli yönüne - etkinin büyüklüğü - istatistiksel öneminden ziyade (etki büyüklüğü ve örneklem büyüklüğünü birleştiren) vurgulayarak, bilgi birikimine daha bilimsel bir yaklaşım getirmektedir. Bu nedenlerden dolayı, etki büyüklüğü etkinliğin raporlanması ve yorumlanmasında önemli bir araçtır.

Etki Boyutu, Aptal: Etki büyüklüğü nedir ve neden önemlidir?

α

P Değeri Neden Yeterli Değil?

İstatistiksel anlamlılık, iki grup arasındaki gözlemlenen farkın şansa bağlı olma olasılığıdır. Eğer p değeri, seçilen alfa seviyesine (örneğin, 05) daha büyük olan, herhangi bir gözlenen fark değişkenliği örnekleme ile açıklanabilir varsayılır. Yeterince büyük bir örnekle, herhangi bir etki yoksa, yani etki boyutu tam olarak sıfır olduğunda, istatistiksel test neredeyse her zaman önemli bir fark gösterecektir; yine de çok küçük farklar, anlamlı olsa bile, çoğu zaman anlamsızdır. Bu nedenle, bir analiz için sadece önemli P değerinin raporlanması, okuyucuların sonuçları tam olarak anlaması için yeterli değildir.

@ DarrenJames'in büyük örnek boyutları ile ilgili yorumlarını desteklemek

Örneğin, bir örneklem büyüklüğü 10 000 ise, gruplar arasındaki sonuçlardaki fark göz ardı edilebilir olduğunda ve bir başkasına göre pahalı veya zaman alıcı bir müdahaleyi haklı göstermeyebilse bile önemli bir P değerinin bulunması muhtemeldir. Önem düzeyi tek başına etki büyüklüğünü öngörmez. Anlamlılık testlerinin aksine, etki büyüklüğü örneklem boyutundan bağımsızdır. İstatistiksel anlamlılık ise örneklem büyüklüğüne ve etki büyüklüğüne bağlıdır. Bu nedenle, P değerlerinin numune boyutuna bağımlı olmaları nedeniyle karıştırıldığı kabul edilir. Bazen istatistiksel olarak anlamlı bir sonuç sadece büyük bir örneklem büyüklüğünün kullanıldığı anlamına gelir. [Bu davranışın sıfır hipoteze karşı bir önyargıyı temsil ettiği yönünde yanlış bir görüş vardır.Sık sık hipotez testi null hipotezi yeterince büyük örneklerle reddetmeye neden eğilimlidir? ]

Efekt Boyutunu Kullanma - veya P Değeri Neden Yetersiz?

Hem P değeri hem de Efekt Boyutlarını bildirme

Şimdi soruyu cevaplamak için, etkisi boyutları olan üstün için p-değerleri ? Bunların her birinin istatistiksel analizde bu tür terimlerle karşılaştırılamayan ve birlikte rapor edilmesi gereken önemli bileşenler olduğunu iddia ediyorum. P-değeri (boş dağıtım fark) istatistiksel olarak anlamlı bir istatistik kelimelere etki boyutu koyar orada ne kadar bir fark göstermektedir.

Örnek olarak, çok istatistik dostu olmayan amiriniz Bob, wt (ağırlık) ve mpg (galon başına mil ) arasında anlamlı bir ilişki olup olmadığını görmekle ilgilendiğini varsayalım. Analize hipotezlerle başlıyorsunuz

H0:βmpg=0 vs HA:βmpg0

test ediliyorα=0.05

> data("mtcars")
> 
> fit = lm(formula = mpg ~ wt, data = mtcars)
> 
> summary(fit)

Call:
lm(formula = mpg ~ wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5432 -2.3647 -0.1252  1.4096  6.8727 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
wt           -5.3445     0.5591  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared:  0.7528,    Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

summaryβmpg0

Böylece, sonuçların istatistiksel olarak anlamlı olduğu sonucuna varabilir ve önemini pratik terimlerle iletebilirsiniz.

Umarım bu, sorunuzu cevaplamakta yararlı olmuştur.


Jon, teşekkürler, daha fazla duymayı umduğum çok gri alan var ama ben duymadım. Birçok durumda etki boyutları ve p-değerleri aynı fikirde değildir. Birçoğu neden böyle olduğunu bilmek istediğim durumlarda etki boyutlarına güveniyor. Önemli noktalar gösterebilecek simülasyonlar hakkında daha fazla şey duymayı umuyordum. Ortaya koyduğunuz konu ile ilgili olarak, bu etki büyüklüğü küçük olabilir ancak tam olarak sıfır olmayabilir; denklik testi yöntemleri birkaç yıldır uygulanmaktadır. Bayesian denklik testini daha çok seviyorum. Her neyse, muhtemelen sorumu yeterince net bir şekilde sormadım. - Teşekkürler
rnorouzian

Bir meslektaş olan BTW, Daren'in R kodunun yanlış olduğunu söyledi, doğru görünüyor. O koymadı var.equal = TRUE.
rnorouzian

* Pek çok durumda etki boyutları ve p-değerleri aynı fikirde değildir. * - bu konuda daha fazla bilgi verebilir misiniz? Bir örnek? Ortaya koyduğunuz konu ile ilgili olarak, bu etki boyutu küçük olabilir ancak tam olarak sıfır olmayabilir - bu durum büyük bir örneklem büyüklüğü ile sonuçlanabilir. Dolayısıyla, etki büyüklüğü neredeyse sıfır ise, ilgili değişken, sonucu önemli ölçüde etkilemeyebilir veya ilişki yanlış bir şekilde belirtilebilir (örn. Doğrusal ve doğrusal olmayan).
Jon

Sadece bu aracı deneyin . Ayrıca bu belgeye bakın . Açıklık için bazı kodları kullanarak daha sonra başka bir soru sormak gerekecektir. -- Teşekkür ederim.
rnorouzian

@rnorouzian, tamam, kodunu çalıştırdım. Ne demek istiyorsun?
Jon

4

Etki boyutlarının p-değerlerine (ve istatistiksel çıkarımın diğer metriklerine) göre kullanımı, benim alanımda - psikoloji - rutin olarak tartışılmaktadır ve şu anda sorunuzla ilgili nedenlerden ötürü tartışma normalden “daha ​​sıcaktır”. Ve eminim ki, psikoloji mutlaka en istatistiksel olarak en gelişmiş bilimsel alan değildir, ancak istatistiksel çıkarımın çeşitli yaklaşımlarının sınırlarını veya en azından insan kullanımı ile nasıl sınırlandığını kolayca tartışmış, incelemiş ve zaman zaman göstermiştir. Daha önce gönderilen cevaplar iyi bilgiler içerir, ancak her biri için ve her biri için nedenlerin daha kapsamlı bir listesiyle (ve referanslarıyla) ilgileniyorsanız, aşağıya bakın.

P değerleri neden istenmiyor?

  • Darren James'in belirttiği gibi (ve simülasyonunun gösterdiği gibi), p değerleri büyük ölçüde sahip olduğunuz gözlem sayısına bağlıdır (bkz. Kirk, 2003)
  • Jon'un belirttiği gibi, p-değerleri, sıfır hipotezinin doğru olduğu göz önüne alındığında, verileri aşırı veya daha aşırı olarak gözlemlemenin koşullu olasılığını temsil eder. Çoğu araştırmacı, araştırma hipotezi ve / veya sıfır hipotezi olasılıklarına sahip olmayı tercih ettiğinden, p-değerleri araştırmacıların en çok ilgilendiği olasılıklarla konuşmaz (yani, sıfır veya araştırma hipoteziyle, bkz. Dienes, 2008).
  • P değerlerini kullanan birçok kişi ne anlama geldiğini / ne anlama geldiklerini anlamıyor (Schmidt ve Hunter, 1997). Michael Lew'in Gelman ve Stern'in (2006) makalesine referansı, araştırmacının p değerlerinden neler yorumlayabileceği (veya yorumlayamayacağı) hakkındaki yanlış anlamaları vurgulamaktadır. Ve FiveThirtyEight'ın nispeten yeni bir hikayesinin gösterdiği gibi, durum böyle olmaya devam ediyor.
  • p-değerleri, sonraki p-değerlerini tahmin etmede mükemmel değildir (Cumming, 2008)
  • p-değerleri genellikle yanlış bildirilir (daha sıklıkla şişirme önemi) ve yanlış bildirim, veri paylaşmak istememe ile bağlantılıdır (Bakker ve Wicherts, 2011; Nuijten ve diğerleri, 2016; Wicherts ve diğerleri, 2011)
  • p-değerleri analitik esneklik yoluyla aktif bir şekilde bozulabilir ve bu nedenle güvenilmezdir (John ve ark. 2012; Simmons ve ark. 2011)
  • akademik sistemler bilim adamlarını bilimsel doğruluk üzerinde istatistiksel anlamlılık için ödüllendiriyor gibi göründüğü için p-değerleri orantısız olarak önemlidir (Fanelli, 2010; Nosek ve diğerleri, 2012; Rosenthal, 1979)

Efekt boyutları neden istenir?

Araştırmacıların bulgularını “ORTAK BİR metrik” e dönüştürmelerine izin verdiklerini söylediğiniz için, sorunuzu özellikle standartlaştırılmış etki boyutlarına atıfta bulunarak yorumladığımı unutmayın.

  • Jon ve Darren James'in belirttiği gibi, etki büyüklükleri, bir etkinin orada olup olmadığına dair iki taraflı kararlar vermek yerine , gözlem sayısından (Amerikan Psikoloji Derneği 2010; Cumming, 2014) bağımsız olarak bir etkinin büyüklüğünü gösterir .
  • Etki boyutları değerlidir çünkü meta analizleri mümkün kılar ve meta-analiz kümülatif bilgi sağlar (Borenstein vd., 2009; Chan ve Arvey, 2012)
  • Etki boyutları, a priori güç analizi ile örnek büyüklüğü planlamasını kolaylaştırmaya ve dolayısıyla araştırmalarda verimli kaynak tahsisine yardımcı olur (Cohen, 1992)

P değerleri neden istenir?

Daha az desteklenmelerine rağmen, p-değerlerinin bir takım avantajları vardır. Bazıları iyi bilinen ve uzun süredir devam ederken, diğerleri nispeten yenidir.

  • P-değerleri, istatistiksel model sıfır hipotezine karşı kanıt gücünün uygun ve tanıdık bir indeksini sağlar.

  • Doğru hesaplandığında, p-değerleri (bazen gerekli olan) ikili kararlar vermenin bir yolunu sağlar ve p-değerleri, uzun dönem yanlış pozitif hata oranlarını kabul edilebilir bir seviyede tutmaya yardımcı olur (Dienes, 2008; Sakaluk, 2016) [ ikili kararlar için P değerlerinin gerekli olduğunu söylemek kesinlikle doğru değildir. Gerçekten bu şekilde yaygın olarak kullanılıyorlar, ancak Neyman ve Pearson bu amaçla test istatistik alanında 'kritik bölgeler' kullandı. Bkz bu soruyu ve cevaplarını]

  • p-değerleri sürekli olarak verimli örnek boyutu planlamasını kolaylaştırmak için kullanılabilir (sadece bir kerelik güç analizi değil) (Lakens, 2014)
  • p-değerleri meta-analizi kolaylaştırmak ve kanıtsal değeri değerlendirmek için kullanılabilir (Simonsohn ve ark., 2014a; Simonsohn ve ark., 2014b). Bkz bu blog yayınını p-değerlerinin dağılımları bu şekilde, hem de kullanılabilir nasıl erişilebilir bir tartışma için bu CV yazı ilgili tartışma için.
  • p-değerleri, şüpheli araştırma uygulamalarının kullanılıp kullanılmadığını ve tekrarlanabilir sonuçların nasıl olabileceğini belirlemek için adli olarak kullanılabilir (Schimmack, 2014; ayrıca bkz. Schönbrodt'un uygulaması, 2015)

Efekt boyutları neden istenmiyor (veya abartılıyor)?

Belki birçoğu için en sezgisel konum; neden standartlaştırılmış etki büyüklüklerini bildirmek istenmeyen veya en azından abartılı olsun?

  • Bazı durumlarda, standartlaştırılmış etki boyutları, bunların kırıldığı tek şey değildir (örn., Grönland, Schlesselman ve Criqui, 1986). Baguely (2009), özellikle ham / standartlaştırılmamış etki boyutlarının daha fazla arzu edilmesinin bazı nedenleri hakkında güzel bir açıklamaya sahiptir.
  • A priori güç analizi için kullanılabilirliklerine rağmen, etki boyutları, etkili örnek boyutu planlamasını kolaylaştırmak için aslında güvenilir bir şekilde kullanılmamaktadır (Maxwell, 2004)
  • Etki büyüklükleri örneklem büyüklüğü planlamasında kullanıldığında bile, çünkü yayın yanlılığı ile şişirildiklerinden (Rosenthal, 1979) yayınlanan etki büyüklükleri güvenilir örneklem büyüklüğü planlaması için şüpheli bir yarardır (Simonsohn, 2013)
  • Etki büyüklüğü tahminleri istatistiksel yazılımda sistematik olarak yanlış hesaplanabilir ve hesaplanmıştır (Levine ve Hullet, 2002)
  • Etki boyutları yanlışlıkla meta analizlerin güvenilirliğini zayıflatır (ve muhtemelen yanlış bildirilir) (Gøtzsche et al., 2007)
  • Son olarak, etki boyutlarındaki yayın yanlılığının düzeltilmesi , yayın yanlılığının var olduğuna inanıyorsanız, meta analizleri daha az etkili kılan etkisiz kalmaktadır (bakınız Carter ve ark., 2017).

özet

Michael Lew'in dikkatini çeken nokta, p-değerleri ve etki büyüklükleri ancak iki istatistiksel kanıttır; düşünmeye değer başkaları da var. Ancak p değerleri ve efekt boyutları gibi, kanıtsal değerin diğer metrikleri de paylaşılan ve benzersiz sorunlara sahiptir. Araştırmacılar, örneğin, güven aralıklarını yaygın olarak yanlış uygular ve yanlış yorumlar (örneğin, Hoekstra ve ark., 2014; Morey ve ark., 2016) ve Bayesci analizlerin sonuçları, tıpkı p-değerleri (örn. Simonsohn) kullanılırken araştırmacılar tarafından bozulabilir. , 2014).

Tüm kanıt metrikleri kazandı ve hepsinin ödülleri olmalı.

Referanslar

Amerika Psikoloji Derneği. (2010). Amerikan Psikologlar Derneği yayın kılavuzu (6. baskı). Washington, DC: Amerikan Psikoloji Derneği.

Bağuley, T. (2009). Standart veya basit etki büyüklüğü: Ne rapor edilmelidir ?. İngiliz Psikoloji Dergisi, 100 (3), 603-617.

Bakker, M. ve Wicherts, JM (2011). Psikoloji dergilerinde istatistiksel sonuçların (yanlış) raporlanması. Davranış araştırma yöntemleri, 43 (3), 666-678.

Borenstein, M., Hedges, LV, Higgins, J. ve Rothstein, HR (2009). Meta analize giriş. Batı Sussex, İngiltere: John Wiley & Sons, Ltd.

Carter, EC, Schönbrodt, FD, Gervais, WM ve Hilgard, J. (2017, 12 Ağustos). Psikolojide önyargıların düzeltilmesi: Meta-analitik yöntemlerin karşılaştırılması. Osf.io/preprints/psyarxiv/9h3nu adresinden erişildi

Chan, ME ve Arvey, RD (2012). Meta-analiz ve bilginin gelişimi. Psikolojik Bilim Üzerine Perspektifler, 7 (1), 79-92.

Cohen, J. (1992). Bir güç astarı. Psikolojik Bülten, 112 (1), 155-159. 

Cumming, G. (2008). Çoğaltma ve p aralıkları: p değerleri geleceği sadece belirsiz bir şekilde öngörür, ancak güven aralıkları çok daha iyi olur. Psikolojik Bilim Üzerine Perspektifler, 3, 286–300.

Dienes, D. (2008). Psikolojiyi bir bilim olarak anlama: Bilimsel ve istatistiksel çıkarımlara giriş. New York, NY: Palgrave MacMillan.

Fanelli, D. (2010). “Olumlu” sonuçlar bilimlerin hiyerarşisini arttırır. PloS bir, 5 (4), e10068.

Gelman, A. ve Stern, H. (2006). “Anlamlı” ve “anlamlı değil” arasındaki farkın kendisi istatistiksel olarak anlamlı değildir. Amerikan İstatistikçi, 60 (4), 328-331.

Gøtzsche, PC, Hróbjartsson, A., Marić, K. ve Tendal, B. (2007). Standartlaştırılmış ortalama farkları kullanan meta-analizlerde veri çıkarma hataları. JAMA, 298 (4), 430-437.

Grönland, S., Schlesselman, JJ ve Criqui, MH (1986). Etki ölçüsü olarak standart regresyon katsayılarını ve korelasyonlarını kullanmanın yanlışlığı. Amerikan Epidemiyoloji Dergisi, 123 (2), 203-208.

Hoekstra, R., Morey, RD, Rouder, JN ve Wagenmakers, EJ (2014). Güven aralıklarının sağlam yorumlanması. Psikonomik bülten ve inceleme, 21 (5), 1157-1164.

John, LK, Loewenstein, G. ve Prelec, D. (2012). Şüpheli araştırma uygulamalarının yaygınlığının gerçeği anlatmaya yönelik teşviklerle ölçülmesi. Psikolojik Bilimler, 23 (5), 524-532.

Kirk, RE (2003). Etki büyüklüğünün önemi. SF Davis'te (Ed.), Deneysel psikolojide araştırma yöntemleri el kitabı (s. 83-105). Malden, MA: Blackwell.

Lakens, D. (2014). Ardışık analizlerle yüksek güçlü çalışmaların verimli bir şekilde gerçekleştirilmesi. Avrupa Sosyal Psikoloji Dergisi, 44 (7), 701-710.

Levine, TR ve Hullett, CR (2002). İletişim araştırmalarında eta kare, kısmi eta kare ve etki büyüklüğünün yanlış raporlanması. İnsan İletişim Araştırması, 28 (4), 612-625.

Maxwell, SE (2004). Psikolojik araştırmalarda az güçlü çalışmaların sürekliliği: nedenleri, sonuçları ve çareleri. Psikolojik yöntemler, 9 (2), 147.

Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD ve Wagenmakers, EJ (2016). Güven aralıklarına güven vermenin yanlışlığı. Psikonomik bülten ve derleme, 23 (1), 103-123.

Nosek, BA, Spies, JR ve Motyl, M. (2012). Bilimsel ütopya: II. Yayınlanabilirlik konusunda gerçeği teşvik etmek için teşvik ve uygulamaları yeniden yapılandırma. Psikolojik Bilime Bakış Açıları, 7 (6), 615-631.

Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, ​​S. ve Wicherts, JM (2016). Psikolojide istatistiksel raporlama hatalarının yaygınlığı (1985-2013). Davranış araştırma yöntemleri, 48 (4), 1205-1226.

Rosenthal, R. (1979). Dosya çekmecesi sorunu ve boş sonuçlara tolerans. Psikolojik Bülten, 86 (3), 638-641.

Sakaluk, JK (2016). Küçük, büyük doğrulamayı keşfetmek: Kümülatif ve tekrarlanabilir psikolojik araştırmaların ilerletilmesi için yeni istatistiklere alternatif bir sistem. Deneysel Sosyal Psikoloji Dergisi, 66, 47-54.

Schimmack, U. (2014). İstatistiksel Araştırma Bütünlüğünün Nicelleştirilmesi: Tekrarlanabilirlik Endeksi. Http://www.r-index.org adresinden erişildi. 

Schmidt, FL ve Hunter, JE (1997). Araştırma verilerinin analizinde anlamlılık testinin kesilmesine sekiz yaygın fakat yanlış itiraz. LL Harlow, SA Mulaik ve JH Steiger (Eds.) 'De, anlamlılık testi olmasaydı ne olurdu? (s.37-64). Mahwah, NJ: Erlbaum.

Schönbrodt, FD (2015). p-denetleyicisi: Hepsi bir arada p-değeri analizörü. Http://shinyapps.org/apps/p-checker/ adresinden erişildi . 

Simmons, JP, Nelson, LD ve Simonsohn, U. (2011). Yanlış pozitif psikoloji: Veri toplama ve analizinde açıklanmayan esneklik, her şeyi önemli olarak sunmaya izin verir. Psikolojik bilim, 22 (11), 1359-1366.

Simonsohn, U. (2013). Gözlenen etki büyüklüğüne dayalı çoğaltmalara güç verme aptallığı. Http://datacolada.org/4 adresinden alındı.

Simonsohn, U. (2014). Posterior-hack. Http://datacolada.org/13 adresinden erişildi .

Simonsohn, U., Nelson, LD ve Simmons, JP (2014). P-eğrisi: Dosya çekmecesinin anahtarı. Deneysel Psikoloji Dergisi: Genel, 143 (2), 534-547.

Simonsohn, U., Nelson, LD ve Simmons, JP (2014). P eğrisi ve efekt boyutu: Yalnızca önemli sonuçlar kullanılarak yayın yanlılığının düzeltilmesi. Psikolojik Bilim Üzerine Perspektifler, 9 (6), 666-681.

Wicherts, JM, Bakker, M. ve Molenaar, D. (2011). Araştırma verilerini paylaşma isteği, kanıtların gücü ve istatistiksel sonuçların raporlanma kalitesi ile ilgilidir. PloS bir, 6 (11), e26828.


2
Fikirler ve referanslar çok güzel bir koleksiyon. Biraz daha fazla kazmak isteyenler için yararlı olmalıdır, ancak noktaların çoğunun bu sitede alakalı soruları ve cevapları olduğunu unutmayın. Bunlara bağlantılar da yardımcı olacaktır.
Michael Lew

@MichaelLew Teşekkürler. Daha sonra zamanım olduğunda bazı bağlantılar eklemeyi göreceğim - bu yanıtı hazırlamak ve referansları birleştirmek öğleden sonra beni daha iyi bir hale getirdi. Düzenlemenizle ilgili olarak, fikrinizin iyi olduğunu düşünüyorum, ancak bir düzeltmenin aksine belki de daha fazla eklenti? Ben p-değerleri sağlamak söyleyen bir (onlar "Gerekli" veya bunu yaparken tek yolu vardır değil) dikotom kararlar araçlarını. NP kritik bölgelerinin başka bir yol olduğu konusunda hemfikirim, ancak OP'ye p değerinin standartlaştırılmış etki boyutlarına karşı sağladığı bağlam bağlamında yanıt verdim.
jsakaluk

1
jsakaluk, evet cevabın üzerinde uzun zaman geçireceğinizi görebiliyorum ve çok faydalı ve çabanıza layık. Öğeyi P-değerlerinin avantajları üzerinde düzenledim çünkü "Doğru kullanıldığında" yazdılar, bunlar ikiye ayrılabilirken, gerçek şu ki böyle bir kullanım P-değerinde kodlanan bilgilerin çoğunu yok sayar ve tartışmasız (ve bence) yanlış kullanım. Ben niyetini değiştirmek istemiyordu ve bu yüzden "kullanılmış" olarak "hesaplanan" değiştirdim.
Michael Lew

3

Bir Epidemiyolog perspektifinden, neden p-değerleri yerine etki boyutlarını tercih ettiğime göre (bazı insanların belirttiği gibi, bu yanlış bir ikiliktir):

  1. Efekt boyutu bana gerçekten ne istediğimi söylüyor, p değeri bana null değerinden ayırt edilip edilemeyeceğini söylüyor. 1.0001, 1.5, 5 ve 50 nispi risk, onlarla ilişkili aynı p-değerine sahip olabilir, ancak nüfus düzeyinde ne yapmamız gerektiği konusunda oldukça farklı şeyler anlamına gelir.
  2. Bir p-değerine güvenmek, önem-temelli hipotez testinin kanıtların hepsi ve hepsi olduğu fikrini güçlendirir. Aşağıdaki iki ifadeyi göz önünde bulundurun: "Hastalara gülümseyen doktorlar, hastanede kaldıkları süre boyunca olumsuz bir sonuçla ilişkili değildi." vs. "Doktorları onlara gülümsemiş olan hastaların olumsuz sonuçlara sahip olma olasılıkları% 50 daha azdı (p = 0.086)." Yine de, kesinlikle hiçbir maliyeti olmadığı için, doktorların hastalarına gülümsemesini önermeyi düşünür müsünüz?
  3. Örnek boyutunun hesaplama gücü ve sabrının bir fonksiyonu olduğu ve p-değerlerinin aslında anlamsız olduğu birçok stokastik simülasyon modeliyle çalışıyorum. Kesinlikle klinik veya halk sağlığıyla ilgisi olmayan şeyler için p <0.05 sonuç almayı başardım.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.