Gelman & Carlin'i Anlamak “Güç Hesaplamalarının Ötesinde:…” (2014)


11

Gelman & Carlin "Güç Hesaplamalarının Ötesinde: Tip S (İşaret) ve Tip M (Büyüklük) Hatalarının Değerlendirilmesi" (2014) okuyorum . Ana fikri, ana geçiş yolunu anlamaya çalışıyorum, ama kafam karıştı. Birisi bana özü damıtmaya yardım edebilir mi?

Kağıt böyle bir şeye gidiyor (eğer doğru anladıysam).

  • Psikolojide istatistiksel çalışmalar genellikle küçük örneklerle boğulur.
  • Belirli bir çalışmada istatistiksel olarak anlamlı bir sonuca bağlı olarak,
    (1) gerçek etki büyüklüğünün ciddi şekilde fazla tahmin edilmesi muhtemeldir ve
    (2) etkinin işareti, örnek büyüklüğü yeterince büyük olmadıkça, yüksek olasılıkla zıt olabilir.
  • Yukarıdakiler popülasyondaki etki büyüklüğünün önceden tahmin edilmesini kullanarak gösterilir ve bu etkinin genellikle küçük olduğu düşünülür.

Benim ilk sorun neden koşulu istatistiksel olarak anlamlı sonuca, nedir? Yayın yanlılığını yansıtmak mı? Ancak durum böyle görünmüyor. Öyleyse neden?

Benim ikinci sorun kendim bir çalışma yaparsanız, ben alışkınım farklı daha Sonuçlarımı davranmalıyız, (Ben bunu frequentist istatistik, Bayesian çok aşina değil)? Örneğin, bir veri örneği alıyorum, bir model tahmin edeceğim ve bir miktar ilgi ve bunun etrafındaki güven için bir nokta tahmini kaydedeceğim. Şimdi sonucuma güvenmemeli miyim? Yoksa istatistiksel olarak anlamlıysa güvensiz mi olmalıyım? Önceden verilenler bunu nasıl değiştirir?

"1" istatistiksel araştırma "üreticisi" ve (2) uygulamalı istatistiksel makalelerin okuyucusu için temel paket nedir?

Referanslar:

PS: Burada benim için yeni unsur, nasıl tedavi edileceğinden emin olmadığım (sıklık paradigmasından gelen) önceki bilgilerin dahil edilmesi olduğunu düşünüyorum.


Gördüğünüz gibi, oldukça kafam karıştı, bu yüzden sorularım tutarlı veya mantıklı görünmeyebilir. Çalıştığım makaleden daha anlamlı olmanın ipuçlarını takdir edeceğim. Bu konudaki anlayışım ilerledikçe daha mantıklı sorular ortaya koymayı umuyorum.
Richard Hardy

7
Kağıdın öncülünü başlangıçta ayarladıklarına dikkat edin: " Bir denemeyi yeni bitirdiniz. Sonuçları analiz edersiniz ve önemli bir etki bulursunuz . Başarı! Ama bekleyin - çalışmanız size gerçekten ne kadar bilgi veriyor? " Sonuçlarınıza ne kadar güvenmelisiniz? " --- ne olduğunuzu / öneminiz olduğunda ima edilen şeyi açıklıyorlar. Bu sonuçları önemden başka şeylere odaklanmayı motive etmek için kullanırlar.
Glen_b

Sonuçlarınıza güvenmemelisiniz - evet - birden fazla önem testi yaparsanız ve önemsiz olduğu ortaya çıkan her şeyi filtrelerseniz; bu bir tür "yayın yanlılığı" dır, ancak herhangi bir yayın olmadan, sadece bir kişinin laboratuvarında birkaç ay veya yıl süren deneyler boyunca gerçekleşebilir. Herkes bir dereceye kadar böyle bir şey yapar, bu nedenle önemli sonuçlara koşullandırma konusundaki pedagojik ilgi.
amip

@amoeba, tamam, ama (varsayımsal olarak) sadece bir model tahmin edersem ve sadece bir tane önceden belirlenmiş parametreye odaklanırsam (bu yüzden kesinlikle çoklu test yapılmazsa), Gelman ve Carlin'in sonucu bir şeyi değiştirir mi? Önceki bilgileri dahil etmeye ne dersiniz?
Richard Hardy

2
Yanlış keşif oranını değerlendirmek için ön bilgiye ihtiyaç vardır; olağan önem testi mantığı yalnızca tip I hata oranı P'yi (anlamlı) garanti eder. P (null | signif) değerini tahmin etmek için önceden bazılarını çağırmanız gerekir. Gelman ve Carlin burada yapıyor. Yalnızca bir modeli tahmin ederseniz "yanlış keşif oranı" anlamsızdır (sıklıkçı yaklaşımda); ancak genellikle insanlar birçok modeli tahmin eder :-) veya en azından birçok modeli tahmin eden diğer insanlardan oluşan literatürü okurlar.
amip

Yanıtlar:


5

Gazeteyi tekrar okudum ve bu sefer çok daha net görünüyor. Şimdi ayrıca @Glen_b ve @amoeba'nın yararlı yorumları çok mantıklı.

Bütün tartışma, istatistiksel olarak anlamlı bir sonucun elde edildiği bir başlangıç ​​noktasına dayanmaktadır . Şartlı olarak , tahmini etki büyüklüğünün koşullandırmanın olmayacağından farklı dağıtıldığı durumlar vardır: Kağıt iki sorunu hedefliyor gibi görünüyor:

Pβ^(|β^ is statistically significant)Pβ^().
  1. Yayın yanlılığı (yalnızca istatistiksel olarak anlamlı sonuçlar yayınlanır) ve
  2. Yeni çalışmalar için tasarım hesaplamalarında yanlılık (kriter olarak çok büyük beklenen etki büyüklüklerinin alınması).

İyi haber şu ki, her iki sorun da tatmin edici bir şekilde ele alınabiliyor.

  1. Beklenen bir beklenen etki büyüklüğü verildiğinde , tahmini bir etki boyutu (istatistiksel olarak anlamlı olduğu için yayınlandığı varsayılarak, aksi takdirde yayınlanmayacaktır), tahmini standart hata ve tahmincinin dağıtım ailesi (örn. Normal veya Student's ), efekt boyutunun koşulsuz dağılımını geri izleyebiliriz .βplausibleβ^s.e.(β^)tPβ^()
  2. Önceki bulgular kullanılarak 1. yardımıyla. Makul bir etki büyüklüğü belirlenebilir ve çalışma tasarımında kullanılabilir.βplausible

Kendi iki soruma kısaca cevap vermek için:

  1. Veri taraması anlamında olmasa da, az güçlü çalışmalar bağlamında yayın yanlılığıyla ilgilidir; istatistiksel olarak anlamlı bir sonuç, örneğin, sıfırın altındaki% 5 reddine ait olabilir (bu nedenle null aslında doğrudur, ancak alternatif olarak bir reddetme yerine (şans eseri ondan uzak durduk) null doğru değil ve sonuç "orijinal").
  2. Null değerini reddetme konusunda ihtiyatlı olmalıyım, çünkü istatistiksel olarak anlamlı sonuç muhtemelen "gerçek" bir etki (düşük güç nedeniyle) yerine şanstan kaynaklanıyor (şans% 5 ile sınırlı olsa bile) .

2
Glen_b tarafından verilen bu cevap da çok faydalı.
Richard Hardy

İçinde gerçekten gereksiz olmayan bir şey varsa, ama ben de bu soruna yardımcı olabilecek bir cevap yazdım . Bir nokta: Sanırım ( kağıtta olarak adlandırılır) kullanarak etki boyutunun "gerçek" dağılımını tahmin etmeyi değil, daha çok bir Tip S yapma olasılığını tahmin etmek için kullanıyorlar. Mevcut test sonuçlarınıza göre M tipi hata. Bu Bayesci, ama IMHO bir çeşit "Bayesci-lite";) çünkü bunu sıkça yapılan bir testin sonuçlarını yorumlamak için kullanıyorsunuz. βplausibleD
Patrick B.

@PatrickB., Teşekkür ederim. Biraz sonra bakacağım. (Bu cevabınızı daha önce iptal etmiş olduğumu görüyorum; bu zaten yararlı bulduğum anlamına geliyor.)
Richard Hardy

1
Richard, daha genel bir etki boyutu örneği için Tip "S" ve Tip "M" hatasını tahmin etmek için bir R fonksiyonu geliştirdim , Gelman'ın normal dağılım altında gösterdiği gibi değil. Makaleyi okurken, daha önce ve istatistiksel olarak anlamlı bir bulgudan basit bir kurtarma işlemi var. Ancak Tüm süreç tamamen bir güç analizine dayanmaktadır. Aslında, küçük gürültülü çalışmalar için SE büyüktür ve deneysel olarak doğrulanabilir makul etki boyutları ile birkaç makul olduğunu varsayarak ...
rnorouzian

1
... yüksek oranda "S" Tipi ve yüksek abartma oranı (yani "M" Tipi) elde etmekten kaçınmak için gereken örnek büyüklüğü açısından gelecekteki bir çalışmanın neleri içermesi gerektiğini tahmin eder. Kayıtlar için, Gelman'ın Tipi "S", altta yatan efekt boyut dağılımının altında, altta yatan etkinin karşı tarafındaki güçle bölünen parçadır. Her neyse, yardımcı olması durumunda işleve bakın.
rnorouzian

2

Bu makalenin halihazırda Bayesci bir analiz uyguluyorsanız ve istatistiksel önem bölümünü umursamadığınızda yardımcı olabilecek başka bir açısı daha vardır.

, tahmin etmek istediğiniz miktarın (etki büyüklüğü) arka CDF'si olduğunu varsayalım . Bayesçi durumda, gösterimle bir miktar özgürlük alarak ve olasılık yoğunluk fonksiyonları hakkında konuşmaya geçerek, bazı gözlemlenebilir miktar dayalı bir olasılık fonksiyonuna ve önce saflığa sahip olacaksınız :PβVβ

p(β|V)p(V|β)p(β)

Burada olabilirlik açısından olağan ürün vs günlük terimlerinin bir toplamı, içine vektör uzunluğunu dönüm ortaya çıktığı, bir çok bağımsız gözlemler için bir vektör olarak, en basit durumda, bir vektör miktarı olması muhtemeldir bir olacaktır örneklem büyüklüğünün parametrelendirilmesi. Diğer modellerde, diyelim ki Poisson olduğu zaman, örnek büyüklüğünün parametrelendirilmesini ifade eden Poisson parametresine de yuvarlanabilir.VVp(V|β)

Şimdi , literatür taramasına veya diğer araçlara dayalı bir hipotez yaptığınızı varsayalım . Eğer assumed veri üreten süreç kullanabilirsiniz ile simülasyonunu oluşturmak için modeliniz de belirtilmişse göreceğiniz veri temsil ve gerçek efekt boyutudur.βplausibleP(V|β)β=βplausibleVβplausible

Sonra bir tür aptalca şey yapabilirsiniz: arkanı dön ve örneğinin gözlenen veriler olduğu gibi davranın ve genel posteriordan bir sürü örneği çizin . Bu örneklerden, makalede belirtildiği gibi istatistikleri hesaplayabilirsiniz.Vβ

Bağlantılı kağıttan, S tipi hatadan ve abartma oranından miktarlar zaten aynı şeyi temsil ediyor. Bu efekt boyutu için, model seçenekleriniz göz önüne alındığında, bunlar size için seçilen belirli bir örnek boyutu parametresi , yanlış işaretin posterior olasılığının ne olduğunu ve efekt boyutu arasında beklenen (posteriorda) oranın ne olacağını söyleyecektir. modelin ürettiği ve kabul edilen makul etki büyüklüğü, örnek boyutu ile ilgili herhangi bir yönü değiştiğinden .VV

En zor kısım, posterior "gücü", tahmini değerinin , en azından varsayımsal değer kadar büyük olma olasılığını posterior olarak yorumlamaktır . Bu, sıfır hipotezini reddetme kapasitesinin bir ölçüsü değildir, çünkü bu olasılığın boyutu, frekansçı anlamda bir önem ölçüsü olarak kullanılmayacaktır.ββplausible

Buna ne diyeceğimi gerçekten bilmiyorum, uygulamada çalışma tasarımı için akıl yürütmenin çok yararlı bir ölçütü olduğu birkaç uygulamam olduğunu söylemek dışında. Temelde size olasılık ve önceki şekillerle ilgili bazı "yeterince yüksek" sonuçlarla ilgili belirli bir varsayım için ne kadar veri sağlamanız gerektiğini (verilerinizin kullanan bir işlemden mükemmel bir şekilde oluşturulduğunu varsayarak) görmeniz için bir yol sunar. belirli bir boyutta bir etkinin posterior olasılığı.βplausible

Uygulamada bunun benim için en yararlı olduğu durumlarda, aynı genel modelin farklı veri kümelerine tekrar tekrar uygulanması gerektiği, ancak veri kümeleri arasındaki nüansların önceki dağılımı değiştirmeyi veya farklı bir literatür incelemesi alt kümesini kullanmayı haklı kılacağı durumlar pragmatik bir seçimin ne olduğuna karar verin ve ardından farklı veri kümeleri için bu ayarlamaların posteriorda önemsiz olmayan bir olasılık için çok daha fazla veriye ihtiyaç duyacağınız bir durumla sonuçlanıp sonuçlanmayacağına dair kaba bir teşhis alma dağıtımın sağ tarafında yoğunlaşmıştır.βplausible

Hiç kimsenin bu "güç" metriğini, oldukça zor olan sık sık güç hesaplamasıyla aynı şey gibi kötüye kullanmamasına dikkat etmelisiniz. Ancak, tüm bu metrikler, tüm modelleme prosedürü Bayesian olsa da ve herhangi bir istatistiksel anlamlılık sonucuna başvurmasa bile, prospektif ve retrospektif tasarım analizi için oldukça yararlıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.