Bu cevabı p -değerlerine alternatiflerin ne olduğuna dair belirli bir soruya odaklayacağım .p
Orada ASA deyimi ile birlikte ilan 21 tartışma kağıtları (Ek Malzemeler gibi): Naomi Altman, Douglas Altman, Daniel J. Benjamin, Yoav Benjamini Jim Berger, Don Berry, John Carlin, George Cobb, Andrew Gelman Steve Goodman, Sander Grönland, John Ioannidis, Joseph Horowitz, Valen Johnson, Michael Lavine, Michael Lew, Çubuk Küçük, Deborah Mayo, Michele Millar, Charles Poole, Ken Rothman, Stephen Senn, Dalene Stangl, Philip Stark ve Steve Ziliak (bazıları birlikte yazdı) ; Gelecekteki aramalar için hepsini listeleyeceğim). Bu insanlar muhtemelen ilgili tüm mevcut görüşler kapsayacak -değerlerinin ve istatistiksel yöntemlerle.p
21 makalenin tümüne baktım.
Ne yazık ki, çoğu çoğunluğu sınırlamaları, yanlış anlamalar ve çeşitli diğer sorunlar hakkında olsa bile, herhangi bir gerçek alternatifleri tartışmak değil -değerlerinin (bir savunma p -değerlerinin, Benjamini, Mayo ve Senn bakınız). Bu, zaten varsa alternatiflerin bulunmasının ve / veya savunmanın kolay olmadığını göstermektedir.pp
Öyleyse, ASA deyiminin kendisinde verilen "diğer yaklaşımlar" listesine bakalım (sorunuzda belirtildiği gibi):
[Diğer yaklaşımlar], güven, güvenilirlik veya tahmin aralıkları gibi testlere ilişkin tahminleri vurgulayan yöntemleri içerir; Bayes yöntemleri; olabilirlik oranları veya Bayes Faktörleri gibi alternatif kanıt ölçümleri; ve karar-teorik modelleme ve yanlış keşif oranları gibi diğer yaklaşımlar.
Güvenilirlik aralığı
Güven aralıkları, -değerleri ile el ele gider, sıkça kullanılan bir araçtır ; p- değeri ile birlikte bir güven aralığı (veya bir eşdeğeri, örneğin, ortalamanın ortalama ± standart hatası) bildirmek neredeyse her zaman iyi bir fikirdir.p±p
Bazı insanlar (değil ASA davacıyız arasında) güven aralıkları gerektiğini önermek yerine -değerlerine. Bu yaklaşımın en açık sözlü savunucularından biri, ona yeni istatistikler (dehşet verici bulduğum bir isim) diyen Geoff Cumming . Örneğin Ulrich Schimmack'in bu blog gönderisine ayrıntılı bir eleştiri için bakınız: Cumming'in Eleştirel Bir İncelemesi (2014) Yeni İstatistikler: Eski İstatistikleri Yeni İstatistik Olarak Yeniden Satmak . Ayrıca , ilgili konu için Uri Simonsohn tarafından yazılan laboratuvar blog postasındaki etki büyüklüğünü incelemeyi göze alamayız .p
Ben CI'ler bildirirken biri hala istiyorum savunuyorlar Norm Matloff tarafından benzer öneri hakkında (ve cevabım oradaki) de bu konu bkz bildirdi yanı-değerlerine: iyi, ikna edici bir örnektir nedir ki p-değerleri kullanışlı?p
(Değil ASA davacıyız ya arasında) Diğer bazı insanlar ise bir frequentist aracı olmanın güven aralıkları, yanı sıra yanlış olduğunu iddia -değerlerinin ve ayrıca imha edilmelidir. Bakınız, örneğin, Morey ve diğ. 2015, @Tim ile bağlantılı olarak güven aralıklarına güven yerleştirme yanılgısı yorumlarda. Bu çok eski bir tartışma.p
Bayes yöntemleri
(ASA deyiminin listeyi nasıl oluşturduğunu sevmiyorum. Güvenilir aralıklar ve Bayes faktörleri "Bayesian yöntemlerinden" ayrı olarak listeleniyor, ancak açıkça Bayesian araçları. Bu yüzden onları burada sayıyorum.)
Bayesian ve sıkça tartışılan tartışmalar üzerine çok büyük ve çok tartışılan bir literatür var. Örneğin, bazı düşünceler için bu son konuya bakınız: Ne zaman (eğer öyleyse) Bayesçiden daha iyi bir sıklıkçı yaklaşım ne zaman? İyi bir bilgilendirici sabıkası var ve herkes sadece hesaplamak ve rapor mutlu olurdu eğer Bayes analizi toplam mantıklı veya p ( H 0 : θ = 0 | veri ) yerine p ( en azından aşırı verileri | H 0 )p ( θ | veri )p ( H0: θ = 0 | veri )p ( en az aşırı | veri kadar | H0)- ne yazık ki, insanların genellikle iyi öncelikleri yok. Bir deneyci, bir durumda bir şeyi yapan 20 fareyi ve aynı durumda başka bir şeyi yapan 20 fareyi kaydeder; Tahmin, eski sıçanların performansının, ikinci sıçanların performansını aşacağı, ancak hiç kimsenin performans farklılıklarından önce net bir şekilde ifade edemeyeceği ya da gerçekten istemediğidir. (Ama bkz. @ FrankHarrell'ın "şüpheci öncelikleri" kullanarak savunucusu olduğu cevabı.)
Die-hard Bayesians, herhangi bir bilgilendirici önceliği olmasa bile Bayesian yöntemlerini kullanmanızı önerir. En son örnek ise Krushke, 2012, Bayes tahminleri yerini -Testt alçakgönüllülükle en iyisi olarak kısaltılır. Buradaki amaç, ilginin etkisinin (örneğin, bir grup farkının olduğu gibi) posterioru hesaplamak için zayıf bilgilendirici olmayan önceliğe sahip bir Bayesian modelini kullanmaktır. Sıkça muhakeme ile pratik fark genellikle küçük görünmektedir ve bu yaklaşımı görebildiğim kadarıyla popüler değildir. Bkz. "Bilgilendirici bir öncelik" nedir? Gerçekten hiç bilgiye sahip olmayan birini alabilir miyiz? Neyin "bilgisiz" olduğunu tartışması için (cevap: böyle bir şey yoktur, dolayısıyla tartışma).
Harold Jeffreys'e geri dönen alternatif bir yaklaşım, Bayes testine dayanır (Bayes tahmininin aksine ) ve Bayes faktörlerini kullanır. Daha belirgin ve üretken destekçilerden biri , son yıllarda bu konuda çok fazla yayın yapan Eric-Jan Wagenmakers . Bu yaklaşımın iki özelliği burada vurgulanmaya değerdir. Öncelikle, bkz. Wetzels ve diğerleri, 2012, ANOVA için Varsayılan Bir Bayesian Hipotez Testi , böyle bir Bayesian testinin sonucunun ne kadar güçlü olduğunu gösteren bir örnek için, H 1 alternatif hipotezinin özel seçimine bağlı olabilir.'H1ve parametre dağılımı ("önce") gösterir. İkincisi, “makul” bir öncelik seçildiğinde (Wagenmakers, Jeffreys’i “varsayılan” öncelikli olarak adlandırır) tanıtır, sonuçta ortaya çıkan Bayes faktörleri, standart -değerleri ile oldukça tutarlı olduğu ortaya çıkar. Vagon üreticileri :p
Böylece Wagenmakers ve ark. -değerlerinin derinden kusurlu olduğunu ve Bayes faktörlerinin gitme yolunda olduğunu merak etmekte ısrar ediyorlar ... (Adil olmak gerekirse, Wetzels vd. 2011'in amacı, sadece 0.05 Bayes faktörüne yakın p değerleri için) boş değere karşı çok zayıf kanıtlar belirtmekle birlikte, bunun çok sık bir paradigmada, sadece daha katı bir α , çoğu insanın savunduğu bir şey kullanarak kolayca çözülebileceğine dikkat edin .) pp0.05α
Wagenmakers ve ark. Bayes faktörlerinin savunmasında 2011, Psikologların neden verilerini analiz etme yöntemlerini değiştirmeleri gerektiğine bakılıyor: Pem örneği, rezil Bem'in geleceği öngörme konusundaki kağıdının, yalnızca bunun yerine Bayes faktörlerini kullanmış olsaydı hatalı sonuçlara ulaşamayacağını savundu. ve -değerleri. Ulrich Schimmack'in bu düşünceli blog gönderisine bakın (ve IMHO'nun ikna edici) karşı bir tartışması için: Psikologların Verilerini Analiz Etme Yöntemlerini Neden Değiştirmemeleri Gerekiyor: Şeytan Varsayılan Olarak .p
Ayrıca bakınız Varsayılan Bayesian Testi, Uri Simonsohn tarafından yazılan Küçük Efektlere Karşı Önyargılı .
Bütünlüğü sağlamak için, bunu söz Wagenmakers 2007 yaygın sorunlara pratik bir çözüm -değerlerininp yerine Bayes faktörü bir yaklaşım olarak BIC kullanmak önerdi -değerlerine. BIC öncekine bağlı değildir ve dolayısıyla ismine rağmen gerçekten Bayesian değildir; Bu teklif hakkında ne düşüneceğimi bilmiyorum. Daha yakın bir zamanda Wagenmakerler, bilgi vermeyen Jeffrey’lerin öncelikleri ile Bayesian testlerinden daha fazla yararlanıyor görünüyor.p
Bayes tahminine karşı Bayes testine ilişkin daha fazla tartışma için, Bayes parametre tahminine veya Bayes hipotez testine bakınız? ve oradaki bağlantılar.
Minimum Bayes faktörleri
ASA muhalifleri arasında, bu açıkça Benjamin & Berger ve Valen Johnson tarafından (somut bir alternatif öneren sadece iki makale) önerildi. Özel önerileri biraz farklı, ama ruhu aynı.
Berger'in fikirleri Berger & Sellke 1987'ye geri döndü ve Berger, Sellke ve işbirlikçilerinin geçtiğimiz yıla kadar bu çalışmayı ele alan birkaç makalesi var . Fikri noktası boş sivri çubuk ve levhanın önceden altında olmasıdır hipotez alır ihtimali 0,5 ve diğer tüm değerler u olasılık elde 0,5 çevresinde yayılmasını simetrik 0 , daha sonra ( "yerel bir alternatif") en az arka p ( H 0 ) üzerinden tüm yerel alternatifler, yani minimum Bayes faktörü , p’den çok daha yüksektir.μ = 00.5μ0.50p ( H0)p-değer, kıymet. Bu, (çok tartışmalı) değerlerinin boşa karşı "delilleri abarttığı" iddiasının temelidir . Öneri Bayes faktörüne p- değeri yerine boş değer lehine daha düşük bir sınır kullanmaktır ; Bazı geniş varsayımlar altında, bu alt sınırın - e p log ( p ) ile verildiği , yani p- değerinin, ortak aralık için yaklaşık 10 ila 20 arasında bir faktör olan - e log ( p ) ile etkili bir şekilde çarpıldığı anlaşılmaktadır. ve p -değerleri. Bu yaklaşım onaylandıpp- e p günlüğü( p )p- e günlüğü( p )1020p Steven Goodman tarafından da.
Daha sonra güncelleme: Bu fikirleri basit bir şekilde açıklayan hoş bir karikatür bakın .
Hatta daha sonra güncellemek: Bkz Held & On Ott, 2018, -değerleri ve Bayes Faktörlerp kapsamlı bir inceleme ve dönüştürme daha fazla analiz için asgari Bayes faktörlere-değerlerine. İşte oradan bir tablo:p
Valen Johnson, PNAS 2013 belgesinde benzer bir şey önerdi ; onun önerisi yaklaşık çarparak aşağı kaynar tarafından-değerlerine √p yaklaşık5ila10 arasındadır.- 4 πkütük( p )---------√510
Johnson'ın makalesinin kısa bir eleştirisi için bkz. Andrew Gelman ve @ Xi'an'ın PNAS'daki cevabı . Berger & Sellke 1987'ye karşı çıkan tartışma için, bkz. Casella ve Berger 1987 (farklı Berger!). APA tartışma makaleleri arasında Stephen Senn açıkça bu yaklaşımların herhangi birine karşı savunuyor:
Hata olasılıkları arka olasılık değildir. Kuşkusuz, -değerlerinden daha istatistiksel analizler var, ancak ikinci sınıf Bayesian arka olasılıkları olmak için bir şekilde deforme olmak yerine, yalnız bırakılmalıdırlar.P
Ayrıca, Mayo’nun bloğuna dahil olanlar da dahil olmak üzere Senn'in makalesinde referanslara bakın.
ASA deyimi, "karar-teorik modelleme ve yanlış keşif oranlarını" başka bir alternatif olarak listeliyor. Ne hakkında konuştukları hakkında hiçbir fikrim yok ve tartışma belgesinde Stark tarafından belirtilenleri görmekten mutlu oldum:
"Diğer yaklaşımlar" bölümü, bu yöntemlerin bazılarının varsayımlarının değerlerininkilerle aynı olduğu gerçeğini görmezden gelir . Gerçekten de, yöntemlerden bazıları girdi olarak p -değerlerini kullanır (örneğin, Yanlış Bulma Oranı).pp
P -değerlerini gerçek bilimsel uygulamada değiştirebilecek herhangi bir şeyin olduğu konusunda şüpheliyim, öyle ki çoğu zaman p -değerleri ile ilişkili olan problemler (replikasyon krizi, p- hack, vb.) Gider. Gibi herhangi bir sabit karar usulü, örneğin bir Bayes bir, muhtemelen aynı şekilde "kesmek" olabilir p -değerleri olabilir p (bu bazı tartışma ve gösteri için bkz -hacked Uri Simonsohn tarafından bu 2014 blog yazısı ).ppppp
Andrew Gelman'in tartışma raporundan alıntı yapmak için:
Özetle, ASA’nın -değerleri üzerine yaptığı açıklamaların çoğuna katılıyorum ancak sorunların daha derin olduğunu ve çözümün p -değerlerini düzeltmek ya da bunları başka bir istatistiksel özet ya da eşikle değiştirmek yerine değil, bunun yerine olduğunu düşünüyorum. belirsizliği ve değişkenliği benimseyerek daha büyük bir belirsizlik kabul etmeye doğru ilerleyin.pp
Ve Stephen Senn'den:
Kısacası, sorun kendi başlarına değerleri ile daha azdır, ancak onların bir idolü yapmaktır. Başka bir sahte tanrıyı değiştirmek yardımcı olmaz.P
İşte Cohen, onu tanınmış ve çok alıntı yapan (3.5 bin alıntı) 1994 makalesine nasıl koyduğunu şöyle gösterir : Dünyap < 0.05 kağıdı yuvarlaktır ( p < 0.05 ) , -değerlerine karşı çok güçlü bir şekilde tartışmıştır :p
[...] NHST'ye alternatif sihirli bir alternatif aramıyorlar, yerine başka bir objektif mekanik ritüel. Var değil.