ASA


100

olarak etiketlenmiş, bunlar hakkında birçok yanlış anlaşılma ortaya çıkaran çok sayıda konuya sahibiz . On ay önce, psikolojik dergip hakkında , -değerlerini "yasaklayan" bir konu vardı , şimdi Amerikan İstatistik Kurumu (2016) analizlerimizle "bir değerinin hesaplanmasıyla bitmememiz gerektiğini" söylüyor .p

Amerikan İstatistik Kurumu (ASA), bilimsel topluluğun, değerinin doğru kullanımı ve yorumlanmasının altında yatan prensipler üzerine geniş çapta kararlaştırılan bir kaçını açıklayan resmi bir açıklamadan yararlanabileceğine inanıyor .p

Komite, diğer yaklaşımları olası alternatifler olarak veya değerlerine ek olarak listelemektedir :p

-değerleri ile ilgili yaygın suiistimaller ve yanlış anlamaların ışığında , bazı istatistikçiler -değerlerini diğer yaklaşımlarla tamamlamayı, hatta değiştirmeyi tercih ederler . Bunlar, güven, güvenilirlik veya tahmin aralıkları gibi testlere ilişkin tahminleri vurgulayan yöntemleri içerir; Bayes yöntemleri; olabilirlik oranları veya Bayes Faktörleri gibi alternatif kanıt ölçümleri; ve karar-teorik modelleme ve yanlış keşif oranları gibi diğer yaklaşımlar. Tüm bu önlemler ve yaklaşımlar daha ileri varsayımlara dayanır, ancak bir etkinin boyutunu (ve bununla ilgili belirsizliği) veya hipotezin doğru olup olmadığını daha doğrudan ele alabilirler.ppp

Öyleyse, post- -değerleri gerçeği düşünelim . ASA, -değerleri yerine kullanılabilecek bazı metotları listeler , fakat neden daha iyi? Bunlardan hangisi hayatı boyunca -değerleri kullanan bir araştırmacı için gerçek hayatın yerini alabilir ? Ben soruları bu tür hayal edecek sonrası görünür belki en bir adım önlerinde olmaya çalışalım,-değerleri gerçeklik. Kullanıma hazır olabilecek makul alternatif nedir? Neden bu yaklaşım lider araştırmacınızı, editörünüzü veya okuyucularınızı ikna etmelidir?p ppppp

Bu takip blog girişinin önerdiği gibi, -değerleri sadeliği ile rakipsiz:p

P-değeri, sadece boş hipotezi altında bir istatistik davranışı için istatistiksel bir model gerektirir. “İyi” bir istatistik seçmek için alternatif bir hipotez modeli kullanılsa bile (p değerini oluşturmak için kullanılacaktır), bu alternatif modelin p değerinin geçerli olması için doğru olması gerekmez ve faydalıdır (yani: gerçek bir etkiyi tespit etmek için bir miktar güç sunarken kontrol seviyesi I'de istenen seviyede hata). Buna karşılık, Olabilirlik oranları, etki büyüklüğü tahmini, güven aralıkları veya Bayesian yöntemleri gibi diğer (harika ve kullanışlı) istatistiksel yöntemlerin tümü, yalnızca test edilmiş boşluğun altında değil, daha geniş bir durum aralığında tutulması için varsayılan modellere ihtiyaç duyar.

Bunlar mı, belki de doğru değil ve onları kolayca değiştirebilir miyiz?

Biliyorum, bu geniş, ancak asıl soru basit: -değerlerine alternatif olarak kullanılabilecek en iyi (ve neden) gerçek yaşam alternatifi nedir?p


ASA (2016). ASA İstatistiksel Önem ve Değerleri Beyanı . P Amerikan İstatistiği. (Basında)


3
Klasik bir soru +1 olmak zorunda! Bayesian yaklaşımı, çünkü (en azından öznel olarak) sıklıkla ilgilendiğimiz soruyu cevaplamamıza izin veriyor, yani: "Deliller (veriler ışığında), hipotezin gerçek olma olasılığı nedir?"
Christoph Hanck

9
"Post- -değeri gerçeklik" Kulağa hoş distopyan halkası vardır. p
Marc Claesen

4
ASA ifadesi ile birlikte gönderilen tartışma makaleleri, bazıları p-değerlerinin yerini alabilecekleri konusunda önerilerde bulundukları için okunmaya değer. Ek İçerik
Seth

2
P-değerlerinin olası suiistimalleri ile ilgili uyarılarından biri olan ASA raporunun başka bir bölümünü temel alan ilgili bir soru yayınladım: p-hackleme hakkında ne biliyoruz?
Silverfish,

1
Kendi soruma bir yorum olarak, benzer bir konuyu tartışan hoş bir konu var: stats.stackexchange.com/questions/17897/…
Tim

Yanıtlar:


100

Bu cevabı p -değerlerine alternatiflerin ne olduğuna dair belirli bir soruya odaklayacağım .p

Orada ASA deyimi ile birlikte ilan 21 tartışma kağıtları (Ek Malzemeler gibi): Naomi Altman, Douglas Altman, Daniel J. Benjamin, Yoav Benjamini Jim Berger, Don Berry, John Carlin, George Cobb, Andrew Gelman Steve Goodman, Sander Grönland, John Ioannidis, Joseph Horowitz, Valen Johnson, Michael Lavine, Michael Lew, Çubuk Küçük, Deborah Mayo, Michele Millar, Charles Poole, Ken Rothman, Stephen Senn, Dalene Stangl, Philip Stark ve Steve Ziliak (bazıları birlikte yazdı) ; Gelecekteki aramalar için hepsini listeleyeceğim). Bu insanlar muhtemelen ilgili tüm mevcut görüşler kapsayacak -değerlerinin ve istatistiksel yöntemlerle.p

21 makalenin tümüne baktım.

Ne yazık ki, çoğu çoğunluğu sınırlamaları, yanlış anlamalar ve çeşitli diğer sorunlar hakkında olsa bile, herhangi bir gerçek alternatifleri tartışmak değil -değerlerinin (bir savunma p -değerlerinin, Benjamini, Mayo ve Senn bakınız). Bu, zaten varsa alternatiflerin bulunmasının ve / veya savunmanın kolay olmadığını göstermektedir.pp

Öyleyse, ASA deyiminin kendisinde verilen "diğer yaklaşımlar" listesine bakalım (sorunuzda belirtildiği gibi):

[Diğer yaklaşımlar], güven, güvenilirlik veya tahmin aralıkları gibi testlere ilişkin tahminleri vurgulayan yöntemleri içerir; Bayes yöntemleri; olabilirlik oranları veya Bayes Faktörleri gibi alternatif kanıt ölçümleri; ve karar-teorik modelleme ve yanlış keşif oranları gibi diğer yaklaşımlar.

  1. Güvenilirlik aralığı

    Güven aralıkları, -değerleri ile el ele gider, sıkça kullanılan bir araçtır ; p- değeri ile birlikte bir güven aralığı (veya bir eşdeğeri, örneğin, ortalamanın ortalama ± standart hatası) bildirmek neredeyse her zaman iyi bir fikirdir.p±p

    Bazı insanlar (değil ASA davacıyız arasında) güven aralıkları gerektiğini önermek yerine -değerlerine. Bu yaklaşımın en açık sözlü savunucularından biri, ona yeni istatistikler (dehşet verici bulduğum bir isim) diyen Geoff Cumming . Örneğin Ulrich Schimmack'in bu blog gönderisine ayrıntılı bir eleştiri için bakınız: Cumming'in Eleştirel Bir İncelemesi (2014) Yeni İstatistikler: Eski İstatistikleri Yeni İstatistik Olarak Yeniden Satmak . Ayrıca , ilgili konu için Uri Simonsohn tarafından yazılan laboratuvar blog postasındaki etki büyüklüğünü incelemeyi göze alamayız .p

    Ben CI'ler bildirirken biri hala istiyorum savunuyorlar Norm Matloff tarafından benzer öneri hakkında (ve cevabım oradaki) de bu konu bkz bildirdi yanı-değerlerine: iyi, ikna edici bir örnektir nedir ki p-değerleri kullanışlı?p

    (Değil ASA davacıyız ya arasında) Diğer bazı insanlar ise bir frequentist aracı olmanın güven aralıkları, yanı sıra yanlış olduğunu iddia -değerlerinin ve ayrıca imha edilmelidir. Bakınız, örneğin, Morey ve diğ. 2015, @Tim ile bağlantılı olarak güven aralıklarına güven yerleştirme yanılgısı yorumlarda. Bu çok eski bir tartışma.p

  2. Bayes yöntemleri

    (ASA deyiminin listeyi nasıl oluşturduğunu sevmiyorum. Güvenilir aralıklar ve Bayes faktörleri "Bayesian yöntemlerinden" ayrı olarak listeleniyor, ancak açıkça Bayesian araçları. Bu yüzden onları burada sayıyorum.)

    • Bayesian ve sıkça tartışılan tartışmalar üzerine çok büyük ve çok tartışılan bir literatür var. Örneğin, bazı düşünceler için bu son konuya bakınız: Ne zaman (eğer öyleyse) Bayesçiden daha iyi bir sıklıkçı yaklaşım ne zaman? İyi bir bilgilendirici sabıkası var ve herkes sadece hesaplamak ve rapor mutlu olurdu eğer Bayes analizi toplam mantıklı veya p ( H 0 : θ = 0 | veri ) yerine p ( en azından aşırı verileri | H 0 )p(θ|veri)p('H0:θ=0|veri)p(veri en azından aşırı|'H0)- ne yazık ki, insanların genellikle iyi öncelikleri yok. Bir deneyci, bir durumda bir şeyi yapan 20 fareyi ve aynı durumda başka bir şeyi yapan 20 fareyi kaydeder; Tahmin, eski sıçanların performansının, ikinci sıçanların performansını aşacağı, ancak hiç kimsenin performans farklılıklarından önce net bir şekilde ifade edemeyeceği ya da gerçekten istemediğidir. (Ama bkz. @ FrankHarrell'ın "şüpheci öncelikleri" kullanarak savunucusu olduğu cevabı.)

    • Die-hard Bayesians, herhangi bir bilgilendirici önceliği olmasa bile Bayesian yöntemlerini kullanmanızı önerir. En son örnek ise Krushke, 2012, Bayes tahminleri yerini -Testt alçakgönüllülükle en iyisi olarak kısaltılır. Buradaki amaç, ilginin etkisinin (örneğin, bir grup farkının olduğu gibi) posterioru hesaplamak için zayıf bilgilendirici olmayan önceliğe sahip bir Bayesian modelini kullanmaktır. Sıkça muhakeme ile pratik fark genellikle küçük görünmektedir ve bu yaklaşımı görebildiğim kadarıyla popüler değildir. Bkz. "Bilgilendirici bir öncelik" nedir? Gerçekten hiç bilgiye sahip olmayan birini alabilir miyiz? Neyin "bilgisiz" olduğunu tartışması için (cevap: böyle bir şey yoktur, dolayısıyla tartışma).

    • Harold Jeffreys'e geri dönen alternatif bir yaklaşım, Bayes testine dayanır (Bayes tahmininin aksine ) ve Bayes faktörlerini kullanır. Daha belirgin ve üretken destekçilerden biri , son yıllarda bu konuda çok fazla yayın yapan Eric-Jan Wagenmakers . Bu yaklaşımın iki özelliği burada vurgulanmaya değerdir. Öncelikle, bkz. Wetzels ve diğerleri, 2012, ANOVA için Varsayılan Bir Bayesian Hipotez Testi , böyle bir Bayesian testinin sonucunun ne kadar güçlü olduğunu gösteren bir örnek için, H 1 alternatif hipotezinin özel seçimine bağlı olabilir.'H1ve parametre dağılımı ("önce") gösterir. İkincisi, “makul” bir öncelik seçildiğinde (Wagenmakers, Jeffreys’i “varsayılan” öncelikli olarak adlandırır) tanıtır, sonuçta ortaya çıkan Bayes faktörleri, standart -değerleri ile oldukça tutarlı olduğu ortaya çıkar. Vagon üreticileri :p

      Bayes faktörleri p-değerleri

      Böylece Wagenmakers ve ark. -değerlerinin derinden kusurlu olduğunu ve Bayes faktörlerinin gitme yolunda olduğunu merak etmekte ısrar ediyorlar ... (Adil olmak gerekirse, Wetzels vd. 2011'in amacı, sadece 0.05 Bayes faktörüne yakın p değerleri için) boş değere karşı çok zayıf kanıtlar belirtmekle birlikte, bunun çok sık bir paradigmada, sadece daha katı bir α , çoğu insanın savunduğu bir şey kullanarak kolayca çözülebileceğine dikkat edin .) pp0.05α

      Wagenmakers ve ark. Bayes faktörlerinin savunmasında 2011, Psikologların neden verilerini analiz etme yöntemlerini değiştirmeleri gerektiğine bakılıyor: Pem örneği, rezil Bem'in geleceği öngörme konusundaki kağıdının, yalnızca bunun yerine Bayes faktörlerini kullanmış olsaydı hatalı sonuçlara ulaşamayacağını savundu. ve -değerleri. Ulrich Schimmack'in bu düşünceli blog gönderisine bakın (ve IMHO'nun ikna edici) karşı bir tartışması için: Psikologların Verilerini Analiz Etme Yöntemlerini Neden Değiştirmemeleri Gerekiyor: Şeytan Varsayılan Olarak .p

      Ayrıca bakınız Varsayılan Bayesian Testi, Uri Simonsohn tarafından yazılan Küçük Efektlere Karşı Önyargılı .

    • Bütünlüğü sağlamak için, bunu söz Wagenmakers 2007 yaygın sorunlara pratik bir çözüm -değerlerininp yerine Bayes faktörü bir yaklaşım olarak BIC kullanmak önerdi -değerlerine. BIC öncekine bağlı değildir ve dolayısıyla ismine rağmen gerçekten Bayesian değildir; Bu teklif hakkında ne düşüneceğimi bilmiyorum. Daha yakın bir zamanda Wagenmakerler, bilgi vermeyen Jeffrey’lerin öncelikleri ile Bayesian testlerinden daha fazla yararlanıyor görünüyor.p


    Bayes tahminine karşı Bayes testine ilişkin daha fazla tartışma için, Bayes parametre tahminine veya Bayes hipotez testine bakınız? ve oradaki bağlantılar.

  3. Minimum Bayes faktörleri

    ASA muhalifleri arasında, bu açıkça Benjamin & Berger ve Valen Johnson tarafından (somut bir alternatif öneren sadece iki makale) önerildi. Özel önerileri biraz farklı, ama ruhu aynı.

    • Berger'in fikirleri Berger & Sellke 1987'ye geri döndü ve Berger, Sellke ve işbirlikçilerinin geçtiğimiz yıla kadar bu çalışmayı ele alan birkaç makalesi var . Fikri noktası boş sivri çubuk ve levhanın önceden altında olmasıdır hipotez alır ihtimali 0,5 ve diğer tüm değerler u olasılık elde 0,5 çevresinde yayılmasını simetrik 0 , daha sonra ( "yerel bir alternatif") en az arka p ( H 0 ) üzerinden tüm yerel alternatifler, yani minimum Bayes faktörü , p’den çok daha yüksektir.μ=00.5μ0.50p('H0)p-değer, kıymet. Bu, (çok tartışmalı) değerlerinin boşa karşı "delilleri abarttığı" iddiasının temelidir . Öneri Bayes faktörüne p- değeri yerine boş değer lehine daha düşük bir sınır kullanmaktır ; Bazı geniş varsayımlar altında, bu alt sınırın - e p log ( p ) ile verildiği , yani p- değerinin, ortak aralık için yaklaşık 10 ila 20 arasında bir faktör olan - e log ( p ) ile etkili bir şekilde çarpıldığı anlaşılmaktadır. ve p -değerleri. Bu yaklaşım onaylandıpp-epkütük(p)p-ekütük(p)1020p Steven Goodman tarafından da.

      Daha sonra güncelleme: Bu fikirleri basit bir şekilde açıklayan hoş bir karikatür bakın .

      Hatta daha sonra güncellemek: Bkz Held & On Ott, 2018, -değerleri ve Bayes Faktörlerp kapsamlı bir inceleme ve dönüştürme daha fazla analiz için asgari Bayes faktörlere-değerlerine. İşte oradan bir tablo:p

      Mininum Bayes faktörleri

    • Valen Johnson, PNAS 2013 belgesinde benzer bir şey önerdi ; onun önerisi yaklaşık çarparak aşağı kaynar tarafından-değerlerine p yaklaşık5ila10 arasındadır.-4πkütük(p)510


    Johnson'ın makalesinin kısa bir eleştirisi için bkz. Andrew Gelman ve @ Xi'an'ın PNAS'daki cevabı . Berger & Sellke 1987'ye karşı çıkan tartışma için, bkz. Casella ve Berger 1987 (farklı Berger!). APA tartışma makaleleri arasında Stephen Senn açıkça bu yaklaşımların herhangi birine karşı savunuyor:

    Hata olasılıkları arka olasılık değildir. Kuşkusuz, -değerlerinden daha istatistiksel analizler var, ancak ikinci sınıf Bayesian arka olasılıkları olmak için bir şekilde deforme olmak yerine, yalnız bırakılmalıdırlar.P

    Ayrıca, Mayo’nun bloğuna dahil olanlar da dahil olmak üzere Senn'in makalesinde referanslara bakın.

  4. ASA deyimi, "karar-teorik modelleme ve yanlış keşif oranlarını" başka bir alternatif olarak listeliyor. Ne hakkında konuştukları hakkında hiçbir fikrim yok ve tartışma belgesinde Stark tarafından belirtilenleri görmekten mutlu oldum:

    "Diğer yaklaşımlar" bölümü, bu yöntemlerin bazılarının varsayımlarının değerlerininkilerle aynı olduğu gerçeğini görmezden gelir . Gerçekten de, yöntemlerden bazıları girdi olarak p -değerlerini kullanır (örneğin, Yanlış Bulma Oranı).pp


P -değerlerini gerçek bilimsel uygulamada değiştirebilecek herhangi bir şeyin olduğu konusunda şüpheliyim, öyle ki çoğu zaman p -değerleri ile ilişkili olan problemler (replikasyon krizi, p- hack, vb.) Gider. Gibi herhangi bir sabit karar usulü, örneğin bir Bayes bir, muhtemelen aynı şekilde "kesmek" olabilir p -değerleri olabilir p (bu bazı tartışma ve gösteri için bkz -hacked Uri Simonsohn tarafından bu 2014 blog yazısı ).ppppp

Andrew Gelman'in tartışma raporundan alıntı yapmak için:

Özetle, ASA’nın -değerleri üzerine yaptığı açıklamaların çoğuna katılıyorum ancak sorunların daha derin olduğunu ve çözümün p -değerlerini düzeltmek ya da bunları başka bir istatistiksel özet ya da eşikle değiştirmek yerine değil, bunun yerine olduğunu düşünüyorum. belirsizliği ve değişkenliği benimseyerek daha büyük bir belirsizlik kabul etmeye doğru ilerleyin.pp

Ve Stephen Senn'den:

Kısacası, sorun kendi başlarına değerleri ile daha azdır, ancak onların bir idolü yapmaktır. Başka bir sahte tanrıyı değiştirmek yardımcı olmaz.P

İşte Cohen, onu tanınmış ve çok alıntı yapan (3.5 bin alıntı) 1994 makalesine nasıl koyduğunu şöyle gösterir : Dünyap<0.05 kağıdı yuvarlaktır ( p < 0.05 ) , -değerlerine karşı çok güçlü bir şekilde tartışmıştır :p

[...] NHST'ye alternatif sihirli bir alternatif aramıyorlar, yerine başka bir objektif mekanik ritüel. Var değil.


1
@ amoeba teşekkürler, bu harika bir özeti! Şüpheciliğinize katılıyorum - bu konu kısmen paylaştığım için ortaya çıktı. Bu anda ipliği açık bırakıyorum - kabul edilmiş bir cevap olmadan - belki birileri bazı gerçek, iyi bir alternatifin var olduğuna ikna edici örnekler ve argümanlar sunabilir.
Tim

1
Wagenmakers ve BIC ile ilgili @amoeba, eleştirel ile karşılaştırmak iyidir, örneğin Gelman: andrewgelman.com/2008/10/23/i_hate_bic_blah
Tim

2
Bu, CV'de en çok oy alan cevaplar arasında olmayı hak eden gerçekten etkileyici bir cevaptır. Tim'den sonra bir başka ödül daha ekleyebilirim.
gung

Sağol, @gung, bunu duyduğuma sevindim, senden çok şey geliyor. Ancak Bayes sınavına yalnızca yüzeysel olarak aşina olduğumu ve bununla ilgili uygulamalı deneyime sahip olduğumu söylemeliyim. Dolayısıyla bu cevap okuduklarımın bir özetini sunuyor, ancak bu gerçekten bir uzman görüşü değil.
amip

1
Hayır, Bayes'in iyi çalışabilmesi için bilgilendirici bilgiye ihtiyaç duymazsınız. Spiegelhalter'in çok iyi gösterdiği gibi, şüpheci önceliklerin büyük bir rolü var ve kullanımı kolaydır. Bayesyen arka olasılıkların büyük avantajları vardır.
Frank Harrell,

27

İşte benim iki kuruş.

Bir noktada, birçok uygulamalı bilim insanının aşağıdaki "teoremi" ifade ettiğini düşünüyorum:

p-değer, kıymet<0.05my hypothesis is true.

ve kötü uygulamaların çoğu buradan geliyor.

p

İstatistikleri kullanan insanlarla gerçekten anlamadan çalışırdım ve işte gördüğüm şeylerden bazıları:

  1. p<0.05

  2. p<0.05

  3. 0.05

Bütün bunlar, hileye karşı güçlü bir aldatma hissine sahip olmayan, dürüst bilim insanları tarafından yapılır. Neden ? IMHO, Teorem 1 nedeniyle.

p0.05p<0.05p<0.05

p

p

p>0.05

  1. H 0 : μ 1μ tipinde bir hipotez (sadece verilere sahip olduğumuz için) karşılaştırmaya çalışın'H0:μ1μ2p'H0p=0.2

değeri ile ilgili ana mesele , birçok durumda bunun çok yardımcı olabileceğini düşünüyorum. Tipik bir örnek nokta 4'tür, meslektaşıma p ( μ 1 > μ 2 | x ) vs. p ( μ 1 < μ 2 için arka oranını hesaplamayı önerdim.pp(μ1>μ2|x)p(μ1<μ2|x)μ1>μ2μ2>μ1

İlgili bir başka durum da uzmanların istediği zaman:

  1. μ1>μ2>μ3μ1=μ2=μ3μ1>μ2>μ3

Alternatif hipotezi dile getirmek, bu davayı çözmek için tek çözümdür.

Bu yüzden posterior oranların kullanılması, Bayes faktörü veya olasılık oranının, güven / güvenilir aralıklarla bir araya gelmesiyle ilgili ana konuları azaltıyor gibi görünmektedir.

p

pp

İki kuruş kararı

p


Belki örneğinizi daha net olması için düzenleyebilirsiniz çünkü şu an için neyi hesaplıyordunuz, veriler neydi ve sayılar nereden geliyordu?
Tim

@Tim. Feedbak için Tks. Hangi örneği kastediyorsunuz?
sabah

"(verilere sahip olduğumuz için) karşılaştırmaya çalışın bir hipotez: 10 ve 10 veri al, p-değerini hesapla. Bul p = 0.2 ...."
Tim

1
Ayrıca, veriler aksi belirtilse de mutlaka kötü bir şey olsa bile, hipotezinizi "bilmenin" doğru olduğunu düşünmüyorum. Görünen o ki, Gregor Mendel'in deneylerinde yanlış bir şey olduğunda nasıl hissettiğini, çünkü teorilerinin doğru olduğu konusunda çok güçlü bir sezgiye sahipti.
dsaxton

@dsaxton Tamamen size katılıyorum. Belki de o kadar net değil ama bu benim ilk noktamda göstermeye çalıştığım bir şey: p-değeri, bilimsel indüksiyonun nihai anahtarı değil (belli bir kitleye göründüğü halde). Belli koşullar üzerinde belirli bir miktarda veriyle elde edilen kanıtların istatistiksel olarak ölçülmesidir. Ve, hipin doğru olduğunu düşünmek için çok fazla dış nedeninizin olduğu bir durumda, ancak veriler "iyi" p değerini sağladığında, sizin de belirttiğiniz gibi başka şeyler tartışılabilir. Ben alaycımda daha net yapmaya çalışacağım.
peuhp

24

kullanmaya devam tek nedenleriP

  1. Sık kullanılan yöntemler için Bayesian yöntemlerinden daha fazla yazılım mevcuttur.
  2. Şu anda bazı Bayesian analizlerinin çalışması uzun zaman alıyor.
  3. Bayesian yöntemleri daha fazla düşünme ve daha fazla zaman yatırımı gerektirir. Düşünce kısmına aldırış etmiyorum ama zaman çok kısa, bu yüzden kısayolları alıyoruz.
  4. Bootstrap, sık sık dünyaya Bayesian'le olandan daha fazla bağlı olan oldukça esnek ve kullanışlı bir günlük tekniktir.

PP yerine zaman ne . Ne olmuş olabilir kişinin keyfi çokluk ayarlamaları yapmasını, hatta etkilemiş olabilecek ama aslında yapmayan veri görünümlerini ayarlamasını bile sağlar.

P -değerleri son derece keyfi bir karar eşikleri ile birleştiğinde, işler kötüleşir. Eşikler neredeyse her zaman oyun oynamayı davet eder.

Gauss lineer modeller ve üstel dağılım dışında, sık sık çıkarımla yaptığımız hemen hemen her şey yaklaşıktır (iyi bir örnek, log olasılığı olabilirliği çok karesel olmadığı için sorunlara neden olan ikili lojistik modeldir). Bayesci çıkarımda, her şey simülasyon hatası içinde kesindir (ve arka olasılıkları / güvenilir aralıkları almak için her zaman daha fazla simülasyon yapabilirsiniz).

Düşüncem ve gelişmemle ilgili daha ayrıntılı bir muhasebeleştirmeyi http://www.fharrell.com/2017/02/my-journey-from-frequentist-to-bayesian.html adresinde yazdım.


3
p

2
p

3
t

1
Frank, teşekkürler. Bayesian testlerine çok aşina değilim (ve daha önce Box & Tiao'yu duymadım), ama benim genel izlenimim, bir Bayesian testinden çıkarılan Bayes faktörünün, önceki denemede özel olmayan bir seçim seçimine oldukça güçlü bir şekilde bağlı olabileceğidir. içeri giriyor. Ve bu seçeneklerin motive edilmesi zor olabilir. Sanırım aynısı güvenilir aralıklar için de geçerli - bunlar daha önce bilgilendirici olmayan bir seçeneğe bağlı olacak. Doğru değil mi? Eğer öyleyse, o zaman nasıl başa çıkmalı?
amip

2
Evet, Bayes faktörlerini kullanmamama rağmen. Sık görüş yaklaşımı, bir öncekini de seçer - bu konu hakkındaki diğer tüm bilgileri görmezden gelir. Spiegelhalter'in şüpheci önceki yaklaşımını tercih ederim. İdeal bir dünyada şüphecilerin önceliği sağlamasına izin vereceksin.
Frank Harrell

6

Wharton'dan parlak bir tahminci Scott Armstrong , yaklaşık 10 yıl önce Öngörü Testlerinde Tahmini Önlemede Zararın İlerlemesi başlıklı bir makale yayınladı. , kurduğu bir dergiyi tahmin etmek için uluslararası dergide . Bu tahminde bulunsa bile, herhangi bir veri analizi veya karar vermede genelleştirilebilir. Makalede şöyle diyor:

"İstatistiksel öneme sahip testler bilimsel ilerlemeye zarar verir. Bu sonuca ilişkin istisnalar bulma çabaları bugüne kadar hiçbir sonuç vermedi."

Bu, anlamlılık testi ve P değerlerinin antitetik görünümüyle ilgilenen herkes için mükemmel bir okumadır.

Bu makaleyi beğenmemin nedeni, Armstrong'un özlü olan ve özellikle benim gibi olmayan bir istatistikçi için kolayca anlaşılabilecek önemlilik testlerine alternatifler sağlamasıdır. Bu, benim görüşüme göre, söz konusu ASA makalesinden daha iyidir:görüntü tanımını buraya girin

Bunları benimsemeye devam ediyorum ve o zamandan beri, rastgele deneysel çalışmalar veya yarı deneyler yaptığım durumlar dışında, önemlilik testi veya P değerlerine bakmaktan vazgeçtim. İlaç endüstrisi / yaşam bilimleri dışında ve Mühendislik'teki bazı alanlarda pratik olarak rastgele deneyler eklemeliyim.


4
Ne demek "ilaç endüstrisi dışında ve Mühendislikte bazı alanlarda pratik olarak randomize deneyler çok nadirdir"? Randomize deneyler biyoloji ve psikolojide her yerdedir.
amip

Yaşam bilimlerini de içerecek şekilde düzenledim.
Tahminci

2
Tamam, ama o randevuyu söylüyorum. tecrübe. tıp ve yaşam bilimleri dışında "çok nadir" ve psikoloji temelde "çok yaygın" olduklarını söylüyor. Bu yüzden amacından emin değilim.
amip

6

Bu konuda, zaten bu konuda iyi miktarda aydınlatıcı tartışma var. Ama size şunu soracağım: " Neye alternatif ?" P-değerleri hakkındaki en önemli şey, iki dünya arasında yaşamaya zorlanmalarıdır: karar teorik çıkarımı ve ücretsiz dağıtım istatistikleri. Çalışmaları pozitif / negatif veya anlamlı / anlamlı olmayan bir şekilde ikilileştirmek için bir karar teorik kuralı olarak "p <0.05" e bir alternatif arıyorsanız, o zaman size şunu söyleyeyim: Sorunun önceliği hatalı. için birçok markalı alternatif bulabilir ve bulabilirsinizpAynı mantıksal eksikliklere sahip olan değer temelli çıkarım .

p. Hala bunun yeterli bir yaklaşım olduğunu düşünüyorum, bu da bulguların bilimsel olarak uygulanabilirliği sorusunu bu içerik uzmanlarının elinde bırakıyor. Şimdi, modern uygulamalarda bulduğumuz hata, bilim olarak bir istatistik hatası değildir. Ayrıca oyunda balıkçılık, tahminde bulunma ve abartma da var. Aslında (eğer) bir kardiyolog yalan söylemeli ve 0.1 mmHg ortalama kan basıncını düşüren bir ilacın "klinik olarak önemli" olduğunu iddia etmemelidir, hiçbir istatistik bizi bu tür sahtekârlıklardan koruyamaz.

Karar teorik istatistik çıkarımına bir son vermeliyiz. Hipotezin ötesinde düşünmeye çalışmalıyız. Klinik fayda ve hipotez odaklı araştırmalar arasındaki artan boşluk, bilimsel bütünlüğü tehlikeye atar. "Önemli" çalışma son derece düşündürücüdür, ancak nadiren klinik olarak anlamlı bulguları vaat etmektedir.

Bu açıktır ki hipotez kaynaklı çıkarımın niteliklerini incelersek:

  • Belirtilen sıfır hipotezi kesindir, mevcut bilgilerle aynı fikirde değildir ve sebep veya beklentiye meydan okur.
  • Hipotezler, yazarın yapmaya çalıştığı noktaya teğet olabilir. İstatistikler, makalelerdeki tartışmaların çoğuna nadiren uyum sağlar; yazarlar, örneğin gözlemsel çalışmalarının kamu politikası ve sosyal yardım için etkileri olduğu iddiasına geniş kapsamlı iddialarda bulunur.
  • Hipotezler, ilgi popülasyonunu yeterince tanımlamamaları anlamında eksik olma eğilimindedir ve aşırı genelleşmeye yol açma eğilimindedir.

Bana göre alternatif, en azından niteliksel bir meta-analitik yaklaşım. Tüm sonuçlar, özellikle "dahil etme / hariç tutma kriterleri, maruz kalma / sonuçlar için kullanılan birimler veya ölçeklerin yanı sıra etki büyüklükleri ve belirsizlik aralıkları (en iyi% 95 CI ile özetlenir)," dikkatle "açıklanan diğer" bulgular "ve çok dikkatlice açıklanan farklılıklara karşı özenle incelenmelidir. ).

Ayrıca bağımsız onaylayıcı denemeler yapmamız gerekiyor. Birçok kişi görünüşte önemli bir deneme tarafından sallandı, ancak çoğaltma olmadan çalışmanın etik olarak yapıldığına güvenemeyiz. Birçoğu bilimsel kariyeri kanıtların tahrifinden mahrum bırakmıştır.


“Fisher'ın ilk önerisi, bilim adamlarının p-değerini araştırmanın gücüyle nitel olarak karşılaştırması ve orada sonuçlar çıkarmasıydı.” Bu noktayı seviyorum --- Fisher'ın söylediği yerde alıntı yapabileceğim bir referans var mı? Bilim adamları p <0.05 basit bir ikileminden sadece biraz daha az basit bir ikiliğe geçtiler: “p <0.05 VE güç yüksekse, oldukça güçlü kanıtlara sahibiz. P> 0.05 VEYA iktidar düşüktü, daha fazla veri alana kadar bu hipotez hakkında karar vermeyeceğiz. ”
civilstat

6

ppp değeri geleneksel anlamlılık seviyesine ulaşamadığında önemlidir, çünkü okuyucunun bunun gerçekten bir fark olmadığı ya da çalışmanın klinik olarak anlamlı bir fark bulmak için yetersiz kalmasından kaynaklandığını söylemesini sağlar.

Tıbbi literatürden iki referans (1) Langman, Tahminde Doğrulama ve Güvene Girme Haklarına İlişkin MJS ve DG (P) değerleri yerine Güven Prensipleri Değerlerine Sahip DG: Altman : Hipotez testinden ziyade tahmin


2
Aslında CI en do not kontrol etki boyutuna ve hassasiyet göstermek örn Morey ve ark (2015) Psychonomic Bülten & İnceleme "güven aralıkları güveni yerleştirme safsata": learnbayes.org/papers/confidenceIntervalsFallacy
Tim

8
@Tim, güzel kağıt, daha önce görmedim; Denizaltı örneğini beğendim. Bağlantı için teşekkürler. Ancak gerçek Bayesian partizanlar tarafından yazıldığını söylemeliyiz: "Bayesian dışı aralıklar istenmeyen, hatta tuhaf özelliklere sahiptir, bu da makul bir analistin onları çıkarımlar çekme aracı olarak reddetmesine neden olur". Herhangi bir makul analist! Etkileyici kibir.
amip

1
@amoeba katılıyorum, sadece karşı örnek veriyorum, çünkü benim için olduğu gibi, alternatiflerin ilk bakışta göründüğü kadar açık ve doğrudan olduğu açık değil.
Tim

4
İlginç olsa da denizaltı örneğini bu kadar çekici bulmadım. Hiçbir düşünce istatistikçisi, örnekte olduğu gibi neden olmaz. Düşünmeyi bırakmaz ve başkalarına faydalı olduğu için tüm durumlara kör bir yöntem uygularsınız.
dsaxton

2
@ amoeba: Bu özel alıntıda, "Bayesyen olmayan aralıklar" özel olarak, bu örnekte tartışılan aralıkları ifade eder, tüm aralıklar Bayesyen olmayan mantık tarafından gerekçelendirilmemiştir. Daha fazla içerik için buraya bakın: stats.stackexchange.com/questions/204530/…
richarddmorey

1

Seçimim, p değerlerini kullanmaya devam etmek, ancak basitçe güven / güvenilir aralıklar eklemek ve muhtemelen birincil sonuçlar tahmin aralıkları için olacaktır. Douglas Altman'ın çok güzel bir kitabı var (Güven ile İstatistik, Wiley) ve boostrap ve MCMC yaklaşımları sayesinde her zaman oldukça sağlam aralıklar oluşturabilirsiniz.


6
Bence "neden daha iyilar?" / "Bu yaklaşım neden lider araştırmacınızı, editörünüzü veya okuyucularınızı ikna etmeli?" Ana sorusuna cevap vermiyorsunuz. " Seçiminizi geliştirebilir misiniz?
Peuhp

1. Bu sadece mevcut uygulamayı mümkün kılar. 2. Yine de CI ile "arka kapı önem testi" yapma eğilimi var, 3. Önemlilik testi (p-değerleri veya CI'lar ile) düşük bir tekrarlanabilirlik oranına yol açıyor (Tim Lash'ın makalelerine bakınız). 4. Araştırmacılar, klinik olarak anlamlı bir sınır veya etki eşiğini belirlemek için rahatsız edilemez.
AdamO

1

p

  • Hedef popülasyondaki sonuçları simüle edebilecek daha karmaşık bir model geliştirmek
  • Teklif edilen bir karar, tedavi veya politikanın uygulanabileceği bir hedef popülasyonun niteliklerini tanımlamak ve ölçmek
  • simülasyon yoluyla, yaşam yıllarına, kaliteye göre ayarlanan yaşam yıllarına, dolara, ürün üretimine vb. gibi hedef miktardaki ham birimlerde beklenen bir kaybı tahmin etmek ve bu tahminin belirsizliğini değerlendirmek.

Elbette, bu normal hipotez anlamlılık testini engellemez, ancak istatistiksel olarak anlamlı bulguların çok erken, gerçek keşif yolundaki aracı adımlar olduğunu ve araştırmacılardan bulgularıyla daha fazlasını yapmalarını beklememiz gerektiğini vurgulamaktadır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.