Bir psikoloji dergisi p-değerlerini ve güven aralıklarını yasakladı; onları kullanmayı bırakmak gerçekten akıllıca mı?


73

Şubat 2015 tarihinde 25 dergi Temel ve Uygulamalı Sosyal Psikoloji bir makale yayınladı yasaklayan gelecekteki tüm gazetelerden-değerlerine ve güven aralıkları.p

Özellikle, derler ki (biçimlendirme ve vurgu benimdir):

  • [...] yayınlanmadan önce, yazarlar NHSTP'nin [boş hipotez anlamlılık testi prosedürü] 'nün tüm değerlerini kaldırmak zorunda kalacaklar ( -değerleri, -değerleri, -değerleri,' 'önemli' 'farklılıklar veya bunların eksikliği hakkındaki açıklamalar , ve bunun gibi).ptF

  • NHSTP'nin, reddetmek için güçlü bir dava sunmak için gerekli olan boş hipotez olasılığını sağlamadaki başarısızlığına benzer şekilde, güven aralıkları, ilgilenilen popülasyon parametresinin belirtilen sınırlar içinde olacağı sonucuna varmak için güçlü bir durum sunmamaktadır. Aralık. Bu nedenle, güven aralıkları BASP tarafından da yasaklanmıştır.

  • [...] Bayesian prosedürleriyle ilgili olarak, duruma göre karar verme hakkımızı saklı tutuyoruz ve bu nedenle Bayesian prosedürleri ne gerekli ne de BASP'den men edilmiyor.

  • [...] Çıkarımsal herhangi bir istatistiksel prosedür gerekli mi? - Hayır [...] Ancak, BASP, efekt boyutları dahil olmak üzere güçlü tanımlayıcı istatistikler gerektirecektir.

Buradaki değerleriyle ilgili problemleri ve kötüye kullanımlarını tartışmayalım ; p-value etiketine göz atarak CV hakkında zaten pek çok mükemmel tartışma var . -değerlerinin eleştirisi genellikle ilgili parametreler için güven aralıklarını bildirmek için bir tavsiyeyle birlikte gider. Örneğin, bu çok iyi tartışılan bu yanıtta @gung, etki boyutlarını çevrelerindeki güven aralıklarla bildirmeyi önerir. Ancak bu dergi de güven aralıklarını yasaklıyor.pp

Bu gibi bir yaklaşımın, -değerleri, güven aralıkları ve önemli / önemsiz ikilemi olan "geleneksel" yaklaşımın aksine veri ve deneysel sonuçları sunmadaki avantajları ve dezavantajları nelerdir ? Bu yasağa verilen tepki çoğunlukla olumsuz görünüyor; Peki o zaman dezavantajları nelerdir? Amerikan İstatistik Birliği, "bu politikanın kendi olumsuz sonuçları olabilir" diyerek bu yasaklama konusunda kısa bir cesaret kırıcı yorumda bulundu. Bu olumsuz sonuçlar ne olabilir?p

Veya @whuber'ın önerdiği gibi, bu yaklaşım genel olarak nicel bir araştırma paradigması olarak mı savunulmalı? Ve değilse, neden olmasın?

PS. Sorumun yasağın kendisi ile ilgili olmadığını unutmayın ; önerilen yaklaşımla ilgilidir. Ben de frekansa karşı Bayesci çıkarım hakkında bir soru sormuyorum. Editör Bayesian yöntemleri konusunda da oldukça olumsuz; bu yüzden aslında istatistik kullanmakla ilgili değil, hiç istatistik kullanmamakla ilgilidir.


Diğer tartışmalar: reddit , Gelman .


14
Doğrusal regresyon modellerinde p değerleri ile güven aralıkları arasında bire bir eşleme yapıldığından, p değerlerini yasaklamanın, güven aralıklarını tutmanın neden anlamlı olacağı konusunda güçlü bir neden göremiyorum. Ancak hem p değerlerini hem de güven aralıklarını yasaklamak, sonuçların tanımlanmasında bir boşluk bırakıyor ... Acaba standart hataların raporlanmasına izin verip vermeyeceklerini merak ediyorum (aynı bire bir eşleme grubunun başka bir ölçüsü olur).
Richard Hardy

7
Her şey kötüye kullanılabilir, bu yüzden bu durumdaki şeyleri yasaklamak ... garip. P-değerleri hayranı değilim ama bu, soruna oldukça saf bir yaklaşım gibi görünüyor. Bir şey doğru şeyleri kullanmaya teşvik etmek, ancak şeyleri yasaklamak sorunla başa çıkmanın doğru bir yolu gibi gelmiyor ...
Tim

12
İyi fikir. İstatistik kullanmak, bu alanın bilimsel olmayan doğasını gizler.
Aksakal

4
Bu, p değerlerinin kötüye kullanılması konusundaki hüsrana karşı tam bir tepki gibi görünmektedir. Genel olarak P değerleri yerine p değerlerinin kötüye kullanılması yasağı ile daha mutlu olurdum.
TrynnaDoStat

8
Listenizde 4 öğe onlar ediyoruz anlaşılacağı değil çıkarım olabilir, ama efekt boyutları sadece açıklayıcı istatistikler bildirdi olur nokta tahminleri, gerektiren. (Bununla birlikte, editördeki birkaç satır, "Psikoloji araştırmalarında tipik olandan daha büyük örneklem büyüklüklerinin kullanımını teşvik ediyoruz, çünkü örneklem büyüklüğü arttıkça, tanımlayıcı istatistikler giderek daha istikrarlı hale geliyor ve örnekleme hatası daha az sorun yaratıyor". 2016 editörünün, örnekleme hatasının etkileri için bu istikrar ve muhasebe kavramını nicel olarak resmileştirmeye yönelik araştırma çağrısını bekliyorum.)
Scortchi

Yanıtlar:


23

OP'nin link verdiği mevcut 2015 editörünün ilk cümlesi:

Temel ve Uygulamalı Sosyal Psikoloji (BASP) 2014 Yazarı *, * boş hipotez anlamlılık test prosedürünün (NHSTP) geçersiz olduğunu vurguladı ...

(vurgum)

Başka bir deyişle, editörler için, "sıfır hipotez anlamlılık testi" nin geçersiz olduğu kanıtlanmış bir bilimsel gerçektir ve 2014 editörü yalnızca bunu vurgulamıştır, mevcut 2015 editörü ise bu gerçeği uygulamaktadır.

NHSTP'nin suiistimali (hatta bu kadar kötü niyetli olsa bile) gerçekten iyi tartışılmış ve belgelenmiştir. Ve insanlık tarihinde “her şeyin yasaklandığını” duyulmamış bir şey değil çünkü tüm söylenen ve yapıldıktan sonra, iyi bir kullanıma koymaktan daha çok kötüye kullanıldıkları tespit edildi (ancak bunu istatistiksel olarak test etmemeli miyiz?). Ortalama olarak (çıkarımsal istatistiklerin) kazançtan ziyade kayıplara neden olduğunu kesmek "ikinci en iyi" bir çözüm olabilir ve bu nedenle (çıkarımsal istatistiklerin) gelecekte de zararlı olacağını tahmin ediyoruz.

Ancak, yukarıdaki ilk cümlenin ifadesinin ardında ortaya çıkan coşku, bunu, açıkça teklif etmek yerine, çalmaya meyilli eli kesmeye karar vermekten ziyade , bir zealot yaklaşımı olarak gösteriyor . Yukarıdaki alıntıda belirtilen bir yıllık eski yazıyı okursa (DOI: 10.1080 / 01973533.2014.865505), bunun derginin politikalarının yeni bir Editör tarafından yeniden çekilmesinin bir parçası olduğunu göreceksiniz.

Editörde aşağı doğru kayıyorlar, yazıyorlar

... Aksine, p <.05 çubuğunun geçmesi çok kolay olduğuna ve bazen düşük kaliteli araştırmalar için bir bahane olarak hizmet ettiğine inanıyoruz.

Bu nedenle, disiplinleriyle ilgili sonuçlarının, boş hipotezlerin "çok sık" reddedildiği ve bu nedenle iddia edilenlerin sahte istatistiksel önem kazanabileceği anlaşılıyor. Bu, ilk cümlede "geçersiz" dikteyle aynı argüman değil .

Dolayısıyla, soruyu cevaplamak için, derginin editörleri için kararlarının yalnızca akıllıca olduğu ancak henüz uygulamaya geçildiği için geç olduğu açıktır: istatistiklerin hangi kısmının zararlı hale geldiğini kestiklerini düşünüyorlar. yararlı kısımlar -burada "eşdeğer" bir şeyle değiştirilmesi gereken bir şey olduğuna inanmıyorlar .

Epistemolojik olarak, bu, bir sosyal bilimin alimlerinin, disiplinlerini, yöntemlerinde ve sonuçlarında nicel yöntemleri kullanarak daha objektif yapma çabalarından kısmen geri çekildikleri bir durumdur, çünkü sonuçta (nasıl?) girişimi "iyiden daha kötü" yarattı. Bunun çok önemli bir mesele olduğunu, prensip olarak gerçekleşmesinin mümkün olduğunu ve bunun “makul şüphenin ötesinde” olduğunu göstermek için yıllarca çalışmayı gerektiren ve disiplininize gerçekten yardımcı olacağını söyleyebilirim. Ancak yayınlanan yalnızca bir veya iki başyazı ve makale büyük olasılıkla (çıkarımsal istatistikler) bir iç savaşı ateşleyecektir.

2015 editörünün son cümlesi şu şekildedir:

NHSTP'nin yasaklanmasının, yazarları NHSTP düşüncesinin düzenlenmiş yapısından kurtarması ve böylece yaratıcı düşüncenin önündeki önemli bir engeli ortadan kaldırmasıyla gönderilen yazıların kalitesini artırma etkisine sahip olacağını umuyoruz. NHSTP, on yıllardır psikolojiye hâkim oldu; ilk NHSTP yasağını başlatarak, psikolojinin NHSTP'nin koltuk değneğine ihtiyaç duymadığını ve diğer dergilerin de uygun olduğunu gösterdiğimizi umuyoruz.


5
Evet, bu sitede yanak dilini veya sardonik cevapları yazarken dikkatli olmalıyız: (tamamen) yanlış anlaşılmış olabilirler!
whuber

4
@ naught101 ... bu çok diplomatik olmazdı. NHSTP'nin mahkum edilme biçimine dikkat edin, psikologları on yıllardır kullandıklarını kendilerine ayırıyor. Önerdiğin şekilde yazılmış olsaydı, meslektaşlarına bilim adamları olarak doğrudan saldırmak gibi görünürdü. Şimdi, esasen durduğu gibi, metin, iyi niyetlerle dolu psikologların, maalesef bu konuda “bilimsel otorite gücünü” kötüye kullanan “birisi” tarafından, yanlış kullanımda yanlış kullanıldıklarını ima ediyorlar. emperyalizm?
Alecos Papadopoulos

4
Kötü bir işçi onun aletlerini sorumlu tutuyor.
na1101

3
@BrianDHall Belirli yazarın konuyla ilgili çalışmalarından ziyade NHSTP'yi (bu site dahil) çevreleyen konularda daha fazla kaynak bulmanızı öneririm. Mesele zordur ve inceliksizdir - yorumunuzdan önce, ilk önce "kabul et" ve "iddia" ile ilgili semantikleri tartışmalı ...
Alecos Papadopoulos

6
@ naught101: İşçinin motorlu testereyi doğru şekilde kullanamadığını fark ederseniz, aleti suçlayamayabilirsiniz. Ama daha fazla zarar görmemesi için yine de işçiden uzaklaştırırdın ;-)
nikie

19

Bazı hipotez testlerinin yasaklanmasının, az sayıdaki “varoluş” hipotezleri dışında harika bir fikir olduğunu düşünüyorum, örn., Sıfır hipotezinin, ESP'nin varlığının kanıt olmadığını kanıtlamak için gösterilmesi gereken ekstra duyusal bir algı olmadığını test etmek. . Ancak derginin psikolojideki zayıf araştırmaların ana itici gücünün değerleri üzerindeki eşiğin kullanılması olduğu noktasını kaçırdığını düşünüyorum . Psikolojide ve diğer birçok alanda ulaşmanın çok iyi bir oyun oynadığı gösterilmiştir . Bu, hipotez ikamesini, gözlemlerin kaldırılmasını ve verilerin alt kümelenmesini içerir. İlk önce yasaklanması gereken eşikler.PP<0.05

Güven aralıklarının yasaklanması da düştü, ancak başkalarının belirttiği sebeplerden ötürü değil. Güven aralıkları, yalnızca birileri Bayesian güvenilir aralıklarıyla yanlış yorumlanırsa yararlıdır (önceden uygun bilgi olmayanlar için). Ama yine de faydalılar. Sık sık yorumladıkları yorumların kafa karışıklığı dışında hiçbir şeye yol açmaması, "Dodge'dan çıkmamız" ve Bayesian ya da olasılık okuluna gitmemiz gerektiği anlamına geliyor. Ancak eski iyi güven sınırlarını yanlış yorumlayarak faydalı sonuçlar elde edebilirsiniz.

Derginin editörlerinin Bayesian istatistiklerini yanlış anlamaları ve saf olabilirlik çıkarımının varlığını bilmemesi bir utanç. Aradıkları şey, biraz şüpheci öncelikler kullanarak Bayesian poster dağılımları ile kolayca sağlanabilir.


+1, teşekkürler. Güven aralıklarıyla ilgili netleştireyim. Güven aralıkları standart hatalarla ilişkilidir, bu yüzden öneri muhtemelen bunları kullanmayı da bırakmalıdır. En basit durumu ele alalım: bir miktar değer bir nesne / nesne grubu boyunca ölçülür ; Diyelim ki ortalama 3'tür. Anladığım kadarıyla bu dergi sadece 3 olarak bildirmeyi önerir. Fakat standart hatayı da görmek istemezsiniz, örneğin ? Elbette bu,% 95 güven aralığı olduğu anlamına gelir, bu da olduğu anlamına gelir , bu yüzden hepsi ilişkilidir. Nasıl rapor etmeyi önerdiğini bilmiyorum. n3±0.53±1p<0.05
amip

4
Standart hataların aşırı basitleştirildiğini düşünüyorum (çünkü simetrik dağılımları varsayıyorlar), ancak ortalama kare hatası gibi kullanışlı hassasiyet önlemleri. Olasılık kapsamı öngörülmeden kök ortalama kare hatasına dayanan bir hassasiyet aralığı düşünebilirsiniz. Bu nedenle, bu tartışmaların herhangi birinin standart hataların vurgulanmasını gerektirmediğini görmüyorum. CL'leri kullanmayı bırakmamızı önermiyordum. Ancak CL'lerdeki zorluk, temel olarak olasılık yorumlama girişimlerinden kaynaklanmaktadır.
Frank Harrell,

Hmmm. İlginç. Bana göre standart hatadan CI'ye (sabit bir faktör!) Kadar küçük bir adım var, onlara farklı davranmak garip olurdu. Ama belki de anlamsal bir nokta; Sanırım demek istediğim, insanlar standart hatalar ve CI'ları farklı düşünüyor ve CI'lar hakkında daha fazla kafa karışıklığı eğiliminde. Bu özel dergi politikasının standart hatalar hakkında ne dediğini merak ediyorum (Editör açıkça onlardan bahsetmiyor).
amip

2
Simetrik durumlarda, standart hata bir güven aralığı için bir yapı taşıdır. Ancak birçok durumda doğru güven aralığı asimetriktir, bu nedenle standart bir hataya dayanamaz. Önyükleme ve geri dönüştürme bazı çeşitleri bu tür iki yaklaşımdır. Profil olabilirliği güven aralıkları özellikle burada akla geliyor.
Frank Harrell,

@Frank Harrell - "salt olabilirlik çıkarımı" ile ilgili olarak, verilerin eşiklerle süslenmeden olasılığının özetlenmesine vurgu yapılmasının, editörlerin tuttuğu cevap olarak göründüğünü kabul ediyorum. AWF Edwards'ın kitabı "Olabilirlik" (1972) doğrudan editörün endişesine dayanıyor: "Bu argümanların değerlendirmesini erteleyebiliriz (örneğin önem testi) daha sonraki bölümlere kadar erteleyebiliriz ve Fisher'ın Olabilirlik kavramına dayanan bir prosedürün tanımına derhal geçebiliriz. “önemlilik testlerinde dengelenebilecek bu nesnelerin hiçbirine açık değil”.
John Mark

13

Bu yaklaşımı, sosyal psikolojinin daha önce yayınlanmış pek çok 'önemli bulguyu' çoğaltmaktaki yetersizliğini ele alma girişimi olarak görüyorum.

Dezavantajları:

  1. sahte etkilere yol açan birçok faktöre hitap etmediğini. Örneğin,

    • A) İnsanlar, verilerini gözetlemeye devam edebilir ve bir etki büyüklüğü ilgisini çekecek kadar büyük olduklarını vurguladığında çalışmalarını durdurabilirler.

    • B) Büyük etki büyüklükleri, gücün geriye dönük değerlendirilmesinde hala büyük güce sahip gibi görünecektir.

    • C) İnsanlar hala ilginç ve büyük etkiler için balık tutacaktır (bir deneyde bir grup hipotezi test etmek ve ardından ortaya çıkan hastayı rapor etmek) veya

    • D) başından beri beklenmedik bir tuhaf etki beklediğini iddia et.

    Önce bu sorunları çözmek için çaba gösterilmemeli mi?

  2. İleriye doğru giden bir alan olarak, geçmiş bulguların gözden geçirilmesi oldukça korkunç olacaktır. Farklı çalışmaların inandırılabilirliğini nicel olarak değerlendirmenin yolu yoktur. Eğer her dergi bu yaklaşımı uygularsa, bir sürü sosyal bilimciniz olacak ve X'in ne kadar inandırıcı olduğu tamamen net olmadığı ve X'in yayınlanmış bir etkinin nasıl yorumlanacağı veya önemli ya da değip değmediği hakkında tartışan bilim adamları olduğunu belirten kanıtlar olduğunu söyleyeceksiniz. hakkında konuşmak. Bu istatistiklere sahip olmak değil mi? Sayıları değerlendirmek için tutarlı bir yol sağlamak. Benim düşünceme göre, bu yeni yaklaşım yaygın bir şekilde uygulanmış olsaydı bir karışıklığa neden olurdu.

  3. Bu değişiklik araştırmacıları küçük etki büyüklüğünde çalışmaların sonuçlarını sunmaya teşvik etmemektedir, bu nedenle dosya çekmecesi etkisini ele almamaktadır (ya da etki büyüklüğünden bağımsız olarak bulguları büyük n'lerle yayınlayacaklar?). Özenle tasarlanmış çalışmaların tüm sonuçlarını yayınladıysak, bireysel çalışmaların sonuçlarının inanılırlığı kesin olmasa da, istatistiksel analiz sağlayan çalışmaların meta-analizleri ve incelemeleri gerçeği tanımlamakta çok daha iyi bir iş çıkartacaktır.


2
@ captain_ahab 3. madde ile ilgili olarak, Editör'ün önceki editörünün (2014) “boş sonuç” çalışmalarının sunulmasını açıkça desteklediğini belirtmeliyiz .
Alecos Papadopoulos

1
Editörde, normalden daha büyük örneklem büyüklüğüne ihtiyaç duymadıkça, yayın için herhangi bir kriterin tartışıldığı bir yorum bulamıyorum (çıkarımsal istatistikler olmadan kabul edilebilir n'lerin tanımlanması nasıl planlanmaları bana göre belirsizdir). Bana göre bu yazıda, etki büyüklüğünün ne olduğu umrunda değil. Bana öyle geliyor ki, sosyal bilim çalışmasındaki en büyük sorun olduğunu düşünüyorum (yani, ilginç etkiler ve öyküler için post-hoc arama).
captain_ahab

2
Daha iyi bir çözüm gibi görünen şey, tüm bilim insanlarının çalışmayı yürütmeden ÖNCE bir çalışmanın hipotezini, temel rasyonelliğini, gücünü ve analitik yaklaşımını kaydetmeleri gerektiğidir. Ve sonra bu çalışmayı reçete ile yayınlamakla sınırlı olmak. Beklenmeyen bir ilginç etki bulunursa, halka açık olarak giriş yapmalı ve ardından bu etkiyi inceleyen yeni bir çalışma yapmalıdır. Yanlış pozitifleri kontrol ederken bu yaklaşım bilim adamlarının yeni etkiler yayınlamadan üretkenliklerini göstermelerini de sağlar.
captain_ahab

7

Neredeyse aynı noktaya değinen harika bir alıntıya rastladım , fakat tam olarak değil - çünkü çoğunlukla sık sık istatistik ve hipotez testleri ile ilgili bir ders kitabındaki açılış paragrafıdır.

Yazar gibi, istatistiki olmayanlar tarafından yaygın olarak tutulur, iyi deneyler yaparsanız istatistiklere gerek yoktur. Oldukça haklılar. [...] Buradaki tuzak, elbette, iyi deneyler yapmak zor. Çoğu insan, en sevdikleri teorinin, hiçbir şey yapmayan gözlemlerle kanıtlandığını iddia ederek kendilerini aptal yapmalarını önlemek için alabilecekleri her türlü yardıma ihtiyaç duyar. Ve anlamlılık testleriyle ilgilenen istatistik bölümünün temel işlevi, insanların kendilerini aptallaştırmasını önlemektir. Bu açıdan, anlamlılık testlerinin işlevi, insanları teşvik etmemek için deneyler yayınlamayı engellemektir. İdeal olarak, gerçekten de, önemsiz testler asla yetersiz deneyleri tespit etmek için başlangıç ​​aşamalarında kullanılmışsa, baskıda görünmemelidir,

- David Colquhoun, Biyoistatistik Üzerine Dersler , 1971


1
Yazınız bir cevaptan ziyade bir yorumdur, bu yüzden bunu onaylamaktan kaçınıyorum, ancak teklifi paylaştığınız için teşekkür etmek istiyorum. Bu pasajda çok fazla yanlış anlaşılma var ve bunların hepsini işaret etmek ve borçlarını karartmak için yoğun çaba harcayacağız (alan söylememek). Bir kelimeyle, bu iddiaların karşılığını "verimlilik". Herkesin sınırsız zamanı ve bütçesi olsaydı, en azından "iyi deneyler" yapmayı hedefleyebilirdik. Ancak kaynaklar sınırlı olduğunda, yalnızca "kesin, net" deneyler yapmak aptalca olur (hem de maliyetli).
whuber

2
Yorumunuz için teşekkürler, @whuber; Ne söylediğine katılıyorum. Yine de, ideal olarak deneysel verilerin resmi hipotez testlerini gereksiz kılacak kadar ikna edici olması gerektiğini söylemeyi çekici buluyorum. Bu ulaşılamaz bir ideal değil! (P-değerleri çok kullanılan) Benim alanında, ben en iyi kağıtları bulmak edilir mesela onlar, birlikte alındığında birbirini destekleyen çeşitli deneyler dizisi, mevcut çünkü: onlarsız ikna açıkçası istatistiki tesadüftü olamaz. Yorum: yorum yapmak için çok uzun sürdü ve CW yanıtı olarak sorun olmadığını anladım.
amip

Evet, neden bir cevap olarak gönderilmesi gerektiğinin farkındayım ve bu nedenle bir yorumu yapmak için oy kullanmadı (bu, teklifin son kısmını kesecek). İdeal olanın belirli durumlarda elde edilemez olmadığı konusunda hemfikirim . Ayrıca akılda tutulması güzel bir ideal olduğuna katılıyorum. Ancak deneylerin nasıl tasarlandığına dair bir rehber olarak (genel olarak, kaynakların tahsis edilme disiplinidir), korkunç bir hata olabilir. (Bu kesinlikle tartışmalıdır.) “İyi” bir deneyin asla istatistiksel yöntemler gerektirmeyeceği önerisi, ancak, el yazısı incelemesine bile dayanamayan önerisidir.
whuber

1
Belki de, bir maddeyi belirli bir fizyolojik cevabı uyaran ilk önemlilik testinin belirli bir fizyolojik cevabı teşvik ettiğini söyleyen bir okuma yolu, araştırmalarınızı farklı tip inhibitörlerin doz-cevap eğrisi üzerindeki etkileri üzerine yayınladığınız zamanlar ile artık alakalı değildir.
Scortchi
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.