Etki boyutlarının p-değerlerine (ve istatistiksel çıkarımın diğer metriklerine) göre kullanımı, benim alanımda - psikoloji - rutin olarak tartışılmaktadır ve şu anda sorunuzla ilgili nedenlerden ötürü tartışma normalden “daha sıcaktır”. Ve eminim ki, psikoloji mutlaka en istatistiksel olarak en gelişmiş bilimsel alan değildir, ancak istatistiksel çıkarımın çeşitli yaklaşımlarının sınırlarını veya en azından insan kullanımı ile nasıl sınırlandığını kolayca tartışmış, incelemiş ve zaman zaman göstermiştir. Daha önce gönderilen cevaplar iyi bilgiler içerir, ancak her biri için ve her biri için nedenlerin daha kapsamlı bir listesiyle (ve referanslarıyla) ilgileniyorsanız, aşağıya bakın.
P değerleri neden istenmiyor?
- Darren James'in belirttiği gibi (ve simülasyonunun gösterdiği gibi), p değerleri büyük ölçüde sahip olduğunuz gözlem sayısına bağlıdır (bkz. Kirk, 2003)
- Jon'un belirttiği gibi, p-değerleri, sıfır hipotezinin doğru olduğu göz önüne alındığında, verileri aşırı veya daha aşırı olarak gözlemlemenin koşullu olasılığını temsil eder. Çoğu araştırmacı, araştırma hipotezi ve / veya sıfır hipotezi olasılıklarına sahip olmayı tercih ettiğinden, p-değerleri araştırmacıların en çok ilgilendiği olasılıklarla konuşmaz (yani, sıfır veya araştırma hipoteziyle, bkz. Dienes, 2008).
- P değerlerini kullanan birçok kişi ne anlama geldiğini / ne anlama geldiklerini anlamıyor (Schmidt ve Hunter, 1997). Michael Lew'in Gelman ve Stern'in (2006) makalesine referansı, araştırmacının p değerlerinden neler yorumlayabileceği (veya yorumlayamayacağı) hakkındaki yanlış anlamaları vurgulamaktadır. Ve FiveThirtyEight'ın nispeten yeni bir hikayesinin gösterdiği gibi, durum böyle olmaya devam ediyor.
- p-değerleri, sonraki p-değerlerini tahmin etmede mükemmel değildir (Cumming, 2008)
- p-değerleri genellikle yanlış bildirilir (daha sıklıkla şişirme önemi) ve yanlış bildirim, veri paylaşmak istememe ile bağlantılıdır (Bakker ve Wicherts, 2011; Nuijten ve diğerleri, 2016; Wicherts ve diğerleri, 2011)
- p-değerleri analitik esneklik yoluyla aktif bir şekilde bozulabilir ve bu nedenle güvenilmezdir (John ve ark. 2012; Simmons ve ark. 2011)
- akademik sistemler bilim adamlarını bilimsel doğruluk üzerinde istatistiksel anlamlılık için ödüllendiriyor gibi göründüğü için p-değerleri orantısız olarak önemlidir (Fanelli, 2010; Nosek ve diğerleri, 2012; Rosenthal, 1979)
Efekt boyutları neden istenir?
Araştırmacıların bulgularını “ORTAK BİR metrik” e dönüştürmelerine izin verdiklerini söylediğiniz için, sorunuzu özellikle standartlaştırılmış etki boyutlarına atıfta bulunarak yorumladığımı unutmayın.
- Jon ve Darren James'in belirttiği gibi, etki büyüklükleri, bir etkinin orada olup olmadığına dair iki taraflı kararlar vermek yerine , gözlem sayısından (Amerikan Psikoloji Derneği 2010; Cumming, 2014) bağımsız olarak bir etkinin büyüklüğünü gösterir .
- Etki boyutları değerlidir çünkü meta analizleri mümkün kılar ve meta-analiz kümülatif bilgi sağlar (Borenstein vd., 2009; Chan ve Arvey, 2012)
- Etki boyutları, a priori güç analizi ile örnek büyüklüğü planlamasını kolaylaştırmaya ve dolayısıyla araştırmalarda verimli kaynak tahsisine yardımcı olur (Cohen, 1992)
P değerleri neden istenir?
Daha az desteklenmelerine rağmen, p-değerlerinin bir takım avantajları vardır. Bazıları iyi bilinen ve uzun süredir devam ederken, diğerleri nispeten yenidir.
P-değerleri, istatistiksel model sıfır hipotezine karşı kanıt gücünün uygun ve tanıdık bir indeksini sağlar.
Doğru hesaplandığında, p-değerleri (bazen gerekli olan) ikili kararlar vermenin bir yolunu sağlar ve p-değerleri, uzun dönem yanlış pozitif hata oranlarını kabul edilebilir bir seviyede tutmaya yardımcı olur (Dienes, 2008; Sakaluk, 2016) [ ikili kararlar için P değerlerinin gerekli olduğunu söylemek kesinlikle doğru değildir. Gerçekten bu şekilde yaygın olarak kullanılıyorlar, ancak Neyman ve Pearson bu amaçla test istatistik alanında 'kritik bölgeler' kullandı. Bkz bu soruyu ve cevaplarını]
- p-değerleri sürekli olarak verimli örnek boyutu planlamasını kolaylaştırmak için kullanılabilir (sadece bir kerelik güç analizi değil) (Lakens, 2014)
- p-değerleri meta-analizi kolaylaştırmak ve kanıtsal değeri değerlendirmek için kullanılabilir (Simonsohn ve ark., 2014a; Simonsohn ve ark., 2014b). Bkz bu blog yayınını p-değerlerinin dağılımları bu şekilde, hem de kullanılabilir nasıl erişilebilir bir tartışma için bu CV yazı ilgili tartışma için.
- p-değerleri, şüpheli araştırma uygulamalarının kullanılıp kullanılmadığını ve tekrarlanabilir sonuçların nasıl olabileceğini belirlemek için adli olarak kullanılabilir (Schimmack, 2014; ayrıca bkz. Schönbrodt'un uygulaması, 2015)
Efekt boyutları neden istenmiyor (veya abartılıyor)?
Belki birçoğu için en sezgisel konum; neden standartlaştırılmış etki büyüklüklerini bildirmek istenmeyen veya en azından abartılı olsun?
- Bazı durumlarda, standartlaştırılmış etki boyutları, bunların kırıldığı tek şey değildir (örn., Grönland, Schlesselman ve Criqui, 1986). Baguely (2009), özellikle ham / standartlaştırılmamış etki boyutlarının daha fazla arzu edilmesinin bazı nedenleri hakkında güzel bir açıklamaya sahiptir.
- A priori güç analizi için kullanılabilirliklerine rağmen, etki boyutları, etkili örnek boyutu planlamasını kolaylaştırmak için aslında güvenilir bir şekilde kullanılmamaktadır (Maxwell, 2004)
- Etki büyüklükleri örneklem büyüklüğü planlamasında kullanıldığında bile, çünkü yayın yanlılığı ile şişirildiklerinden (Rosenthal, 1979) yayınlanan etki büyüklükleri güvenilir örneklem büyüklüğü planlaması için şüpheli bir yarardır (Simonsohn, 2013)
- Etki büyüklüğü tahminleri istatistiksel yazılımda sistematik olarak yanlış hesaplanabilir ve hesaplanmıştır (Levine ve Hullet, 2002)
- Etki boyutları yanlışlıkla meta analizlerin güvenilirliğini zayıflatır (ve muhtemelen yanlış bildirilir) (Gøtzsche et al., 2007)
- Son olarak, etki boyutlarındaki yayın yanlılığının düzeltilmesi , yayın yanlılığının var olduğuna inanıyorsanız, meta analizleri daha az etkili kılan etkisiz kalmaktadır (bakınız Carter ve ark., 2017).
özet
Michael Lew'in dikkatini çeken nokta, p-değerleri ve etki büyüklükleri ancak iki istatistiksel kanıttır; düşünmeye değer başkaları da var. Ancak p değerleri ve efekt boyutları gibi, kanıtsal değerin diğer metrikleri de paylaşılan ve benzersiz sorunlara sahiptir. Araştırmacılar, örneğin, güven aralıklarını yaygın olarak yanlış uygular ve yanlış yorumlar (örneğin, Hoekstra ve ark., 2014; Morey ve ark., 2016) ve Bayesci analizlerin sonuçları, tıpkı p-değerleri (örn. Simonsohn) kullanılırken araştırmacılar tarafından bozulabilir. , 2014).
Tüm kanıt metrikleri kazandı ve hepsinin ödülleri olmalı.
Referanslar
Amerika Psikoloji Derneği. (2010). Amerikan Psikologlar Derneği yayın kılavuzu (6. baskı). Washington, DC: Amerikan Psikoloji Derneği.
Bağuley, T. (2009). Standart veya basit etki büyüklüğü: Ne rapor edilmelidir ?. İngiliz Psikoloji Dergisi, 100 (3), 603-617.
Bakker, M. ve Wicherts, JM (2011). Psikoloji dergilerinde istatistiksel sonuçların (yanlış) raporlanması. Davranış araştırma yöntemleri, 43 (3), 666-678.
Borenstein, M., Hedges, LV, Higgins, J. ve Rothstein, HR (2009). Meta analize giriş. Batı Sussex, İngiltere: John Wiley & Sons, Ltd.
Carter, EC, Schönbrodt, FD, Gervais, WM ve Hilgard, J. (2017, 12 Ağustos). Psikolojide önyargıların düzeltilmesi: Meta-analitik yöntemlerin karşılaştırılması. Osf.io/preprints/psyarxiv/9h3nu adresinden erişildi
Chan, ME ve Arvey, RD (2012). Meta-analiz ve bilginin gelişimi. Psikolojik Bilim Üzerine Perspektifler, 7 (1), 79-92.
Cohen, J. (1992). Bir güç astarı. Psikolojik Bülten, 112 (1), 155-159.
Cumming, G. (2008). Çoğaltma ve p aralıkları: p değerleri geleceği sadece belirsiz bir şekilde öngörür, ancak güven aralıkları çok daha iyi olur. Psikolojik Bilim Üzerine Perspektifler, 3, 286–300.
Dienes, D. (2008). Psikolojiyi bir bilim olarak anlama: Bilimsel ve istatistiksel çıkarımlara giriş. New York, NY: Palgrave MacMillan.
Fanelli, D. (2010). “Olumlu” sonuçlar bilimlerin hiyerarşisini arttırır. PloS bir, 5 (4), e10068.
Gelman, A. ve Stern, H. (2006). “Anlamlı” ve “anlamlı değil” arasındaki farkın kendisi istatistiksel olarak anlamlı değildir. Amerikan İstatistikçi, 60 (4), 328-331.
Gøtzsche, PC, Hróbjartsson, A., Marić, K. ve Tendal, B. (2007). Standartlaştırılmış ortalama farkları kullanan meta-analizlerde veri çıkarma hataları. JAMA, 298 (4), 430-437.
Grönland, S., Schlesselman, JJ ve Criqui, MH (1986). Etki ölçüsü olarak standart regresyon katsayılarını ve korelasyonlarını kullanmanın yanlışlığı. Amerikan Epidemiyoloji Dergisi, 123 (2), 203-208.
Hoekstra, R., Morey, RD, Rouder, JN ve Wagenmakers, EJ (2014). Güven aralıklarının sağlam yorumlanması. Psikonomik bülten ve inceleme, 21 (5), 1157-1164.
John, LK, Loewenstein, G. ve Prelec, D. (2012). Şüpheli araştırma uygulamalarının yaygınlığının gerçeği anlatmaya yönelik teşviklerle ölçülmesi. Psikolojik Bilimler, 23 (5), 524-532.
Kirk, RE (2003). Etki büyüklüğünün önemi. SF Davis'te (Ed.), Deneysel psikolojide araştırma yöntemleri el kitabı (s. 83-105). Malden, MA: Blackwell.
Lakens, D. (2014). Ardışık analizlerle yüksek güçlü çalışmaların verimli bir şekilde gerçekleştirilmesi. Avrupa Sosyal Psikoloji Dergisi, 44 (7), 701-710.
Levine, TR ve Hullett, CR (2002). İletişim araştırmalarında eta kare, kısmi eta kare ve etki büyüklüğünün yanlış raporlanması. İnsan İletişim Araştırması, 28 (4), 612-625.
Maxwell, SE (2004). Psikolojik araştırmalarda az güçlü çalışmaların sürekliliği: nedenleri, sonuçları ve çareleri. Psikolojik yöntemler, 9 (2), 147.
Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD ve Wagenmakers, EJ (2016). Güven aralıklarına güven vermenin yanlışlığı. Psikonomik bülten ve derleme, 23 (1), 103-123.
Nosek, BA, Spies, JR ve Motyl, M. (2012). Bilimsel ütopya: II. Yayınlanabilirlik konusunda gerçeği teşvik etmek için teşvik ve uygulamaları yeniden yapılandırma. Psikolojik Bilime Bakış Açıları, 7 (6), 615-631.
Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, S. ve Wicherts, JM (2016). Psikolojide istatistiksel raporlama hatalarının yaygınlığı (1985-2013). Davranış araştırma yöntemleri, 48 (4), 1205-1226.
Rosenthal, R. (1979). Dosya çekmecesi sorunu ve boş sonuçlara tolerans. Psikolojik Bülten, 86 (3), 638-641.
Sakaluk, JK (2016). Küçük, büyük doğrulamayı keşfetmek: Kümülatif ve tekrarlanabilir psikolojik araştırmaların ilerletilmesi için yeni istatistiklere alternatif bir sistem. Deneysel Sosyal Psikoloji Dergisi, 66, 47-54.
Schimmack, U. (2014). İstatistiksel Araştırma Bütünlüğünün Nicelleştirilmesi: Tekrarlanabilirlik Endeksi. Http://www.r-index.org adresinden erişildi.
Schmidt, FL ve Hunter, JE (1997). Araştırma verilerinin analizinde anlamlılık testinin kesilmesine sekiz yaygın fakat yanlış itiraz. LL Harlow, SA Mulaik ve JH Steiger (Eds.) 'De, anlamlılık testi olmasaydı ne olurdu? (s.37-64). Mahwah, NJ: Erlbaum.
Schönbrodt, FD (2015). p-denetleyicisi: Hepsi bir arada p-değeri analizörü. Http://shinyapps.org/apps/p-checker/ adresinden erişildi .
Simmons, JP, Nelson, LD ve Simonsohn, U. (2011). Yanlış pozitif psikoloji: Veri toplama ve analizinde açıklanmayan esneklik, her şeyi önemli olarak sunmaya izin verir. Psikolojik bilim, 22 (11), 1359-1366.
Simonsohn, U. (2013). Gözlenen etki büyüklüğüne dayalı çoğaltmalara güç verme aptallığı. Http://datacolada.org/4 adresinden alındı.
Simonsohn, U. (2014). Posterior-hack. Http://datacolada.org/13 adresinden erişildi .
Simonsohn, U., Nelson, LD ve Simmons, JP (2014). P-eğrisi: Dosya çekmecesinin anahtarı. Deneysel Psikoloji Dergisi: Genel, 143 (2), 534-547.
Simonsohn, U., Nelson, LD ve Simmons, JP (2014). P eğrisi ve efekt boyutu: Yalnızca önemli sonuçlar kullanılarak yayın yanlılığının düzeltilmesi. Psikolojik Bilim Üzerine Perspektifler, 9 (6), 666-681.
Wicherts, JM, Bakker, M. ve Molenaar, D. (2011). Araştırma verilerini paylaşma isteği, kanıtların gücü ve istatistiksel sonuçların raporlanma kalitesi ile ilgilidir. PloS bir, 6 (11), e26828.