Cumming (2008), kopyalarda elde edilen p değerlerinin dağılımının sadece orijinal p değerine bağlı olduğunu iddia eder. Nasıl doğru olabilir?


52

Geoff Cumming'in 2008 makalesinde Replikasyon ve Aralıkları'nıpp okuyordum : p değerleri geleceği yalnızca belirsiz bir şekilde öngörüyor, ancak güven aralıkları çok daha iyi sonuç veriyor [Google Akademik'te 200 alıntı] - ve merkezi iddialarından biriyle kafam karıştı. Bu Cumming karşı savunuyor gazetelerin dizi biridir -değerlerinin ve güven aralıkları lehine; Ancak benim sorum, bu tartışma ile ilgili değil ve sadece p değerleri ile ilgili özel bir iddia ile ilgilidir .pp

Özetten alıntı yapmama izin verin:

Bu makalede, bir ilk deney sonuçları, iki-kuyruklu ise göstermektedir ki, , bir orada 80 % tek kuyruklu şans p , bir replikasyon-değeri aralığı düşecek ( 0,00008 , .44 ) bir 10 şansı % p < .00008 ve tamamen % 10 şansı p > .44 . Dikkat çekici bir şekilde, aralık - p aralığı olarak adlandırılan - bu geniş ancak örneklem büyüklüğüdür.p=.0580%p(.00008,.44)10%p<.0000810%p>.44p

Cumming, bu "iddia p aralığı" ve aslında bütün dağıtım p (aynı sabit numune boyutu ile), özgün deney çoğaltma zaman bir, bağlı elde söyledi -değerleri sadece orijinal ilgili p -değeri pobt ve gerçek efekt boyutuna, gücüne, örneklem büyüklüğüne veya başka bir şeye bağlı değilsiniz:

[...] olasılık dağılımı δ (veya güç) için bir değer bilmeden veya üstlenmeden elde edilebilir . [...] Biz hakkında herhangi bir ön bilgi kabul etmez ö ve sadece bilgi kullanma E d i f f [gözlenen grup arası fark] ilgili verdiği δ belirli bir hesaplama esas olarak p o b t bölgesinin p ve p aralıklarının dağılımı .pδδMdiffδpobtpp

Cumming 2008

Bana bunun dağılımı gibi görünüyor çünkü ben bu karıştı orijinal oysa-değerlerinin güçlü, güç bağlıdır p o b t kendi başına bu konuda herhangi bir bilgi vermez. Gerçek etki büyüklüğü δ = 0 olabilir ve ardından dağılım tekdüze olabilir; ya da belki gerçek etki boyutu çok büyük ve o zaman çoğunlukla çok küçük beklemelisiniz p -değerlerine. Elbette kişi önceden muhtemel etki büyüklükleri üzerinde biraz varsaymakla başlayabilir ve onun üzerinde bütünleşebilir, ancak Cumming bunun yaptığı şey olmadığını iddia ediyor gibi görünüyor.ppobtδ=0p

Soru: Burada tam olarak neler oluyor?


Bu konunun bu soru ile ilgili olduğuna dikkat edin: İlk denemenin% 95 güven aralığında etki tekrarı deneylerinin ne kadarı olacaktır? @whuber tarafından mükemmel bir cevap. Cumming'in bu konuyla ilgili bir makalesi var: Cumming & Maillardet, 2006, Güven Aralıkları ve Çoğaltma: Gelecek Ortalama Nereye Düşecek? - ama bu açık ve sorunsuz.

Ayrıca, Cumming'in iddiasının 2015 Doğa Yöntemleri belgesinde birkaç kez tekrarlandığına da dikkat çekiyorum . Fickle değeriP , bazılarınızın karşılaşmış olabileceği yeniden üretilemez sonuçlar veriyor (Google Akademik'te zaten ~ 100 alıntı var):

[...] tekrarlanan deneylerin değerlerinde önemli farklılıklar olacaktır . Gerçekte, deneyler nadiren tekrarlanır; Bir sonraki P'nin ne kadar farklı olabileceğini bilmiyoruz . Ancak çok farklı olabileceği muhtemel. Örneğin, bir deneyin istatistiksel gücüne bakılmaksızın, tek bir kopya P değeri 0.05 P değerini verirse , % 80'lik bir tekrar deneyinin 0 ile 0.44 arasında P değeri döndürme olasılığı (ve % 20 değişiklik [sic ] bu P daha da büyük olurdu).PPP0.0580%P00.4420%P

(Bakılmaksızın Cumming ifadesi doğru olup olmadığına bakılmaksızın, Doğa Yöntemleri kağıt yanlış da alıntı nasıl, bu arada, tarafından Not: Cumming göre, sadece var üzerinde olasılık 0.44 . Ve evet, kağıt% 20 chan" diyor g e ". Pfff.)10%0.44


8
Bunun gibi herhangi bir iddianın doğanın varsayılan durumuna bağlı olmak zorunda kalmaz mıydı - ve varsayılan olarak null hipotezi olmaz mıydı? İçin basit bir boş hipotez ve bir sürekli dağıtılmış istatistik, p-değeri, bir homojen dağılımına sahiptir. Her şey bu gerçekten akar.
whuber

4
@whuber Peki, burada çoğalttığım Şekil 5'te gösterilen dağılımlar kesinlikle tekdüze değil. Her ne kadar böyle bir dağılımın doğanın durumuna bağlı olması gerektiğine katılıyorum, fakat Cumming bunun tam tersini talep ediyor gibi görünüyor. Dolayısıyla benim sorum: bu yazıda gerçekten neler oluyor? Talebi yanlış mı anladım? Kağıt sadece yanlış mı? Bazı gizli varsayımları çözebilir miyiz? Vb
amip diyor

Kendim için not: Bu arxiv.org/abs/1609.01664 görünüşte alakalı ama hızlı bir bakış, bilincimi çözmedi .
amip diyor Reinstate Monica

1
Keşke bu hafta finali yapmasaydım yoksa biraz zaman harcardım. Her iki örneklem boyutunun aynı olması koşuluyla, müteakip bir p değerinin güce bağlı olması mantıklı değildir. Gözlenen p değeri yalnızca bir parametrenin gerçek değerine ve sizin boş değer seçiminize bağlı olmalıdır. Tahminin kullanışlılığı güce bağlıdır, ancak bu burada bir soru değil.
Dave Harris

3
z=Δx¯σN2Nz,1z=ΔμσN2=0

Yanıtlar:


21

zμθ

Makalenin B ekinde verilen denklemleri elde etmek için Bayesian tarzı bir yaklaşım olabileceğine inanıyorum.

zNθ,1θθH0=0

z^θNθ,1θ1θz^Nz^,1θz^zz^Nz^,2. (İki katına çıkan varyans, Gauss'ların evrimi nedeniyledir.)

12


Tartışma

Bu sonuç standart sıfır hipotez testi çerçevesiyle nasıl bağdaştırılabilir? Muhtemel bir yorum aşağıdaki gibidir.

θ=0θN0,λ2λ2

Bunu, yukarıdaki analizden önce taşıyan, buluyoruz.

θN0,λ2θz^Nδ2z^,δ2,zz^Nδ2z^,1+δ2,δ211+λ2[0,1]
λλ0θz^N0,0zz^N0,1pz^U0,1.

(Tekrarlanan çalışmalar için yukarıdakiler burada, Bayesian güncellemesine karşı meta analizine yönelik "geleneksel" yöntemlerin sonuçlarıyla ilgili ilginç bir soru ortaya koyuyor . Meta-analiz konusunda tamamen cahilim!)


apandis

Yorumlarda istendiği gibi, burada karşılaştırma için bir komplo. Bu, kağıtların içindeki formüllerin nispeten basit bir uygulamasıdır. Ancak, belirsizliği sağlamak için bunları yazacağım.

pzF[u]Pr[puz^]

F[p]=1Φ[12(z[p]z^)],z[p]=Φ1[1p]
Φ[]
f[p]F[p]=ϕ[(zz^)/2]2ϕ[z]
ϕ[]z=z[p]p^ e karşılık gelen gözlenen iki taraflı p değeri , o zaman z^
z^=Φ1[1p^2]

Bu denklemlerin kullanılması , soruda belirtilen makalenin 5 rakamıyla karşılaştırılması gereken aşağıdaki rakamı verir . Cumming'in "Reprodüksiyonu" (2008) Şekil 5, yayınlanan formüller aracılığıyla.

(Bu, aşağıdaki Matlab kodu ile üretildi; burada çalıştırın .)

phat2=[1e-3,1e-2,5e-2,0.2]'; zhat=norminv(1-phat2/2);
np=1e3+1; p1=(1:np)/(np+1); z=norminv(1-p1);
p1pdf=normpdf((z-zhat)/sqrt(2))./(sqrt(2)*normpdf(z));
plot(p1,p1pdf,'LineWidth',1); axis([0,1,0,6]);
xlabel('p'); ylabel('PDF p|p_{obs}');
legend(arrayfun(@(p)sprintf('p_{obs} = %g',p),phat2,'uni',0));

1
Umudum, temel varsayımı açığa vurarak (örneğin, gizli parametreden önce tek tip), tartışmanın artık hedefiniz olduğuna inandığım bilimsel / istatistiksel soruya odaklanabilir ! ( Yukarıda cevapladığım matematik / olasılık sorusundan ziyade .)
GeoMatt22

Bu konuda bazı eski ve çok eski olmayan tartışmalar buldum: Goodman 1992 , Senn 2002 tarafından Goodman hakkında bir yorum ve son zamanlarda Lazzeroni ve ark . Sonuncusu oldukça yararsız gözüküyor (ancak bütünlüğünden bahsediyorum) ancak ilk ikisi, özellikle Senn'in yorumu çok uygun görünüyor.
amip diyor Reinstate Monica

amip, bu referansları araştırdığın için teşekkür ederim, ilginç görünüyorlar! Bütünlüğü sağlamak için Cumming sonucunu ve standart çerçeveyi birbirine bağlamaya çalışan bir "tartışma" bölümü ekledim.
GeoMatt22

Güncelleme: Goodman's ve Senn'in yukarıda verilen makalelerini okudum ve şimdiki sezgimi özetlemek için kendi cevabımı verdim. (Bu arada, cevabınızı kabul etmekten ve ödüllendirmekten mutlu oldum. Tekrar teşekkürler.)
Amip, Reinstate Monica,

27

Tüm ilginç tartışmalar için teşekkürler! Bu 2008 makalesini yazarken, kendimi çoğaltma dağılımının p ( bir çalışmanın tam olarak çoğaltılmasıyla verilen p değeri, aynı olan ancak yeni bir örneklemle aynı olan bir çalışmanın bağımlı olduğu anlamına gelir) olduğuna ikna etmek biraz zaman aldı. yalnızca p orijinal çalışmanın verdiği. (Bildiride Çalışmalarımız nüfusun ortalama tahmin etmek amacı bir normal dağılım nüfus ve rasgele örnekleme varsayılır ve). Bu nedenle P aralığı (çoğaltma için% 80 tahmini aralığı p ) aynı ne olursa olsun , N , Orijinal çalışmanın gücü veya gerçek etki büyüklüğü.

Tabii, bu ilk başta inanılmaz. Ancak, dikkatlice okuduğum ifadenin orijinal çalışmadan " p" ye dayandığına dikkat edin . Bu şekilde düşün. Bana orjinal çalışmanızın p = 0,05 olduğunu söylediğini varsayalım . Bana çalışma hakkında başka hiçbir şey söyleme. Örnek ortalamanızdaki% 95 CI'nin tamamen sıfıra uzandığını biliyorum ( p'nin sıfır sıfır hipotezi için hesaplandığı varsayılmıştır ). Bu nedenle örnek ortalamanız MoE'dir (% 95 CI'nın bir kolunun uzunluğu), çünkü sıfırdan bu mesafedir. Araçların sizinki gibi çalışmalardan örneklem dağılımı standart sapma MoE / 1.96'dır. Bu standart hata.

Tam bir çoğaltma tarafından verilen ortalamayı göz önünde bulundurun. Bu çoğaltma ortalamasının dağılımı MoE anlamına gelir, yani dağıtım orjinal örnek ortalamanız üzerine merkezlenir. Örnek ortalamanızla çoğaltma ortalaması arasındaki farkı göz önünde bulundurun. Orijinal çalışmanız ve kopyalarınız gibi çalışmaların ortalamasının varyanslarının toplamına eşit varyansa sahiptir. Bu, orijinal çalışmanız gibi çalışmaların iki katı varyansıdır, yani 2 x SE ^ 2. Hangisi 2 x (MoE / 1.96) ^ 2. Yani bu farkın SD'si SQRT (2) x MoE / 1.96'dır.

Bu nedenle replikasyon ortalamasının dağılımını biliyoruz: ortalaması MoE ve SD SQRT (2) x MoE / 1.96. Elbette, yatay ölçek keyfi, ancak bu dağılımınızı sadece orijinal çalışmanızın CI ile ilgili olarak bilmemiz gerekiyor. Çoğaltmalar yürütülürken, araçların çoğu (yaklaşık% 83) orijinal% 95 CI'ye düşecek ve% 8'i bunun altına düşecektir (örneğin, orijinal ortalamanız> 0 ise, sıfırın altında) ve% 8'den daha yüksek olacaktır. CI. Bir çoğaltmanın orjinal CI'nize göre nerede düştüğünü biliyorsak, onun p değerini hesaplayabiliriz . Yani biz çoğaltma dağılımını anlamaya (sizin CI ile ilgili olarak) bu tür çoğaltma araçlarının dağılımını biliyor pdeğer, kıymet. Çoğaltma ile ilgili yaptığımız tek varsayım, kesin olduğu, yani aynı popülasyondan, asıl çalışmanızla aynı etki büyüklüğüne sahip olduğu ve N'nin (ve deneysel tasarım) çalışmanızdakiyle aynı olduğu idi. .

Yukarıdakilerin tümü, makale içermeyen, resimler olmadan yapılan tartışmanın yeniden düzenlenmesidir.

Yine de gayrı resmi olarak, orijinal çalışmada p = 0,05'in ne anlama geldiğini düşünmek faydalı olabilir . Küçük bir etki büyüklüğüne sahip muazzam bir çalışma veya dev bir etki büyüklüğüne sahip küçücük bir çalışma olduğu anlamına gelebilir. Her iki durumda da, bu çalışmayı tekrarlarsanız (aynı N , aynı popülasyon), o zaman biraz farklı bir örnek ortalamasından kuşku duymazsınız. P değeri açısından , 'biraz farklı', muazzam veya küçük bir çalışma yapsanız da aynıdır. Bana sadece p değerini söyle, ben de sana p aralığını söyleyeyim .

Geoff


8
Soruma cevap vermek için bu web sitesine üye olduğunuz için teşekkür ederiz! Çok takdir ediyorum. Hala ikna olmadım, ancak cevabınızı düşünmek için biraz zaman alacağım. Şu anki hislerim geçerli bir noktaya değiniyorsunuz, ama nasıl formüle ettiğinize katılmıyorum. Basit bir itiraz: p = 0.05, H0'ın doğru olması ile tutarlıdır. H0 doğruysa, p zamanın% 1'i 0.04-0.05 aralığında olacaktır. Bu durumda, replikasyon p-değerlerinin dağılımı, 0 ila 1 arasında eşit olacaktır. Ancak , her durumda , ilk p = 0.05 için farklı bir dağılım tahmin edersiniz . Kişi bunun hakkında ne düşünmeli?
amip diyor Reinstate Monica,

7
Bu argümandaki örtük bir varsayım savunulamaz görünüyor: “kesin bir çoğaltma” nın ÇDB'ye eşit bir anlamı var. "Kesin çoğaltma" ile deneyi aynı tabiat haliyle tekrarlamak istiyorsak , o zaman test istatistiğinin dağılımı bilinmemektedir: doğanın durumuna bağlıdır. Bir Bayesian bakış açısını kabul etmenin dışında - ki bu, önceden açıkça belirtmeniz gerektiği anlamına gelir - ilerleme kaydetmenin tek yolu , asıl ya da çoğaltma yapılmadan önce olasılıkları hesaplamaktır , çoğaltmaya bağlı değildir.
whuber

2
@ user43849 Saygılarımla, böyle bir kişinin bir p değerinin ne olduğunu anlamadığını söylerdim. Bir p değeri gelecekteki deneyler hakkında çok az veya hiç bir şey söylemez . Doğrudan burada geçerli olan sıkça bir tahmin aralığı kavramı vardır : replikasyon meselesi, gelecekteki tek bir deneyin p-değeri için bir tahmin aralığı ile ilgilidir. Cevap, klasik istatistik teorisine dayanıyor, yenilikçi kavramlar gerektirmiyor ve (kesinlikle) ruhani olarak Bayesian değil.
whuber

2
@whuber makaleyi kazıyor, alıştırmanın altında gizli bir Bayesian varsayımı olabileceğine inanıyorum (cevabımı görün).
GeoMatt22

1
@GeoMatt Evet, hesaplamaları haklı çıkarmanın tek yolu bu.
whuber

10

Sorun @ GeoMatt22 tarafından açıklandı ve tartışmaya katılmak için buraya gelen @GeoffCumming'i gördüğüme sevindim. Bu cevabı başka bir yorum olarak gönderiyorum.


Görünen o ki, bu tartışma en azından Goodman'a geri döndü (1992) Çoğaltma, P ‐ değerleri ve kanıtları üzerine bir yorum ve daha sonra Senn (2002) Editörüne Mektup . Bu iki kısa makalenin, özellikle Stephen Senn'in makalesinde okunmasını şiddetle tavsiye edebilirim; Kendimi Senn ile tamamen aynı fikirdeyim.

Bu soruyu sormadan önce bu makaleleri okumuş olsaydım, büyük olasılıkla asla göndermezdim. Goodman (Cumming'in aksine) çok açık bir şekilde Bayesian ayarını düz bir şekilde düşündüğünü belirtir. O değil mevcut does Cumming yaptığı gibi-değeri dağılımlarını ve bunun yerine bir "önemli" gözlemleme olasılıklarını rapor bir çoğaltma deney sonucu:pp<0.05

Goodman 1992

Başlıca nokta, bu olasılıkların şaşırtıcı derecede düşük olmasıdır ( için bile sadece ). Özellikle, için sadece . (Bu son olasılık, herhangi bir ve için aynı kalır .)0.78 p = 0.05 , 0.5 1 / 2 α p = αp=0.0010.78p=0.050.51/2αp=α

Senn cevabının noktası bu, ancak, yok yararlı bir gözlem olmasıdır değil zayıflatmak herhangi bir şekilde-değerlerine ve does not tersini Goodman, anlamına "boş aleyhine ifade abartmak" -değerleri. O yazıyor:ppp

Ayrıca [Goodman] gösterisinin iki nedenden dolayı faydalı olduğunu düşünüyorum. Birincisi, bu, ikinci çalışmada eşleştirilemeyeceğine (ve marjinal olarak önemli bir sonucu olan) yeni bir çalışmayı daha benzer bir çalışma planlayan herkes için bir uyarı işlevi görür. İkincisi, bireysel çalışmaların sonuçlarındaki bariz tutarsızlığın ortak olması beklenebileceğinin ve kişinin bu fenomene aşırı tepki vermemesi gerektiği konusunda bir uyarı olarak hizmet eder .

Senn tek taraflı olduğunu hatırlatmaktadır -değerleri Bayesian arka olasılıkları olarak anlaşılabilir düz önce altında (gerçek hat üzerinde uygunsuz önce) [bakınız Marsman ve Wagenmakers 2016 kısa bir tartışma için Bu gerçeğin ve bazı alıntılar] .H 0 : μ < 0 μpH0:μ<0μ

Daha sonra herhangi bir almış Öyleyse bir deneyde-değeri, olasılık aşağıdaki deney, bir verecektir düşük -değeri vardır olmak ; Aksi takdirde gelecekteki kopyalar bir şekilde yapılmadan önce ek kanıtlar sağlayabilir. Bu nedenle, Goodman için olasılık elde edildiğine dair tam anlam ifade ediyor . Gerçekten de, Cumming ve @ GeoMatt22 tarafından hesaplanan tüm çoğaltma dağılımları, ilgili medyanlara sahiptir .p 1 / 2 P = 0.05 , 0.5 p o b sp p1/2p=0.050.5pobs

Bununla birlikte, tedavinin etkinliğinin muhtemel olduğuna inanmak için bu replikasyon olasılığının yüksek olması gerekmez . Çalışmaların uzun dizi, ve anlamlı değerlere yüzde biri cent seviyesine başına, tedavinin etkili olduğuna ikna edici delil olur.50 50.5505

Bu arada, -değerlerinin öngörülen dağılımlarına bakacak herhangi bir kişi, örneğin, verilen büyüklük ve güce sahip bir t testi ( örneğin, buraya bakınız ) için bakacak, bir medyanı istemenizin, bu dağılımı oldukça geniş hale getirmesi şaşırtıcı olmayacaktır. , yağ kuyruğu doğru gidiyor . Bu ışık altında, Cumming'in bildirdiği geniş aralıklar şaşırtıcı değildir.p = 0.05 1pp=0.051

Önerdikleri şey , bir denemeyi kopyalamaya çalışırken daha büyük örneklem büyüklükleri kullanması gerektiği; ve aslında, bu, replikasyon çalışmaları için standart bir öneridir (örneğin, Uri Simonsohn , genel kural olarak, örneklem katını arttırmayı önerir ).2.5


5
(+1) Neyse ki , siz yapana kadar Goodman veya Senn'de olmamıştınız. :-)
kardinal

6

Herkese ilginç tartışmalar için teşekkürler. Yorumlarımı yapmak yerine, nokta nokta olarak, bazı genel yansımalar sunacağım.

Bayes. Bayesian yaklaşımlarına karşı hiçbir şeyim yok. Baştan beri, önceden düz veya dağınık olduğu varsayılarak bir Bayesian analizinin aynı veya çok benzer tahmin aralıklarını vermesini beklerdim. P üzerinde bir para var. Bununla ilgili 2008 tarihli makalede 291, kısmen hakemlerden biri tarafından istenmiştir. Bu yüzden, yukarıda, bu yaklaşımın bir çalışmasını gördüğüme sevindim. Bu harika, ama aldığımdan çok farklı bir yaklaşım.

Bir kenara, Bayesian tahminine yaklaşımlardan ziyade güven aralıklarını savunuculuğu (yeni istatistikler: etki büyüklükleri, CI'ler, meta-analiz) üzerinde çalışmayı seçtim (çünkü güvenilir aralıklara dayanarak). Bayesian yeni başlayanlara yeterince iyi yaklaşıyor. Yeni başlayanlar için kullanabileceğimi düşündüğüm herhangi bir gerçek Bayesian ders kitabı görmedim ya da çok sayıda araştırmacı tarafından erişilebilir ve inandırıcı olduğu düşünülüyor. Bu nedenle, araştırmacıların istatistiki çıkarımlarını yapma yollarını geliştirme şansı bulmak istiyorsak başka bir yere bakmamız gerekir. Evet, p ötesine geçmeliyizdeğerler ve ikilü karar vermeden tahmine geçme ve Bayesanlar bunu yapabilir. Ancak pratik bir değişime ulaşma ihtimalinin çok daha fazla olması, yani geleneksel bir CI yaklaşımıdır. Bu nedenle, yeni yayınlanan intro istatistik ders kitabımız yeni istatistik yaklaşımını benimsemiştir. Bkz www.thenewstatistics.com

Yansımaya geri dön. Analizimin merkezinde ilk çalışmanın sadece p değerini bilerek kastediyorum . Ben belirtilmiştir hale varsayımları (normal popülasyon, rasgele örnekleme, bilinen yığın SD bu yüzden kullanabilir z yerine t kastettiğimiz nüfus, tam çoğaltma ilgili çıkarımda yapmak olarak hesaplamalar). Ama tek düşündüğüm bu. Sorum şu: ' ilk deneyden sadece p verilmiştir , ne kadar ileri gidebiliriz?' Sonuç olarak, replikasyon deneyinden beklenen p dağılımını bulabiliriz . Bu dağılımdan, p aralıklarını veya replikasyonun p vereceği olasılık gibi herhangi bir ilgi olasılığını türetebiliriz.<.05 veya başka bir ilgi değeri.

Argümanın özü ve belki de en çok yansıma değerinde olan adım makalede Şekil A2'de gösterilmektedir. Alt yarı muhtemelen problemsizdir. Eğer mu (genel olarak başlangıçtaki çalışmanın ortalamasına eşit olduğu varsayılarak elde edilir) biliyorsak, kalın çizgi segmentleri tarafından temsil edilen tahmin hataları bilinen bir dağılıma sahiptir (normal, ortalama mu, başlıkta açıklandığı gibi SD).

Sonra büyük adım: Şekil 2A'nın üst yarısını düşünün. Mu hakkında hiç bir bilgimiz yok. Bilgi yok - bir öncekiyle ilgili gizli bir varsayım yok. Yine de bu kalın çizgi bölümlerinin dağılımını belirtebiliriz: normal, ortalama sıfır, SD = SQRT (2) çarpı alt yarıda SD. Bu bize çoğaltma dağılımını bulmak için ihtiyacımız olanı verir p .

Sonuçta ortaya çıkan p aralıkları şaşırtıcı derecede uzundur - en azından p değerlerinin araştırmacılar tarafından evrensel olarak kullanılma biçimiyle karşılaştırdığımda şaşkınlık duyuyorum . Araştırmacılar tipik olarak, bir p değerinin ikinci veya üçüncü ondalık basamağını saptamakta , gördükleri değerin gerçekten çok kolay bir şekilde farklı olabileceğinin farkında olmadan. Raporlama hakkında s 293-4 üzerine Dolayısıyla açıklamalarım p ait belirsizlikleri kabul etmek aralıkları p .

Uzun, evet, ama bu , ilk deneydeki p'nin bir anlamı olmadığı anlamına gelmez . Çok düşük bir başlangıç p'den sonra , replikasyonlar ortalama olarak ufacık p değerlerine sahip olma eğilimindedir . Daha yüksek ilk p ve replikasyonlar, daha büyük p değerlerine sahip olma eğilimindedir . Bkz. Tablo 1, s. 292 ve karşılaştır, örneğin, ilk sütun için p sütunlarının p = .001 ve .1 için sağ sütundaki p aralıkları - geleneksel olarak birbirinden uzakta olduğu düşünülen iki sonuç. İki p aralığı kesinlikle farklıdır, ancak ikisinin çok büyük bir örtüşme vardır. .001 deneyinin kopyalanması oldukça kolay bir şekilde p.1 deneyinin bir çoğaltmasından daha büyük. Her ne kadar, büyük olasılıkla, olmazdı.

Doktora araştırmasının bir parçası olarak, Jerry Lai, bir çok disiplinden yayınlanmış araştırmacıların çok kısa subjektif p aralıklarına sahip olduğunu belirten birkaç güzel çalışma olduğunu bildirdi ( Lai ve diğerleri, 2011 ) . Başka bir deyişle, araştırmacılar , bir çoğaltmanın p değerinin ne kadar farklı olabileceğinin şiddetli bir şekilde düşük tahmin etme eğilimindedir .

Benim sonucum, p değerlerini hiç kullanmamamız gerektiğidir . Araştırdığımız nüfus ortalamasından bahseden verilerdeki tüm bilgileri taşıyan% 95 CI’yi rapor edin ve tartışın. CI göz önüne alındığında, p değeri hiçbir şey eklemez ve yanlış bir şekilde bir dereceye kadar kesin olarak önerebileceği düşünülür (Önemli! Önemli değil! Etkisi var! Olmaz!). Elbette, CI'ler ve p değerleri aynı teoriye dayanmaktadır ve biz birinden diğerine dönüştürebiliriz (intro ders kitabımızın 6. bölümünde bununla ilgili çok şey var). Ancak CI, p'den daha fazla bilgi verir . En önemlisi, belirsizlik derecesini belirgin kılar. İnsanımızın kesinliği kavrama eğilimi göz önüne alındığında, CI'nin kapsamı dikkate almak için hayati öneme sahiptir.

Ben de değişkenliğini vurgulamak için teşebbüs ettik s 'dansına değerler p videoları değerleri'. Google ' p değerlerinin dansı '. En az birkaç versiyon var.

Tüm güven aralıklarınız kısa olsun!

Geoff


3
Bu ek yorumlar için teşekkürler Geoff. Buradaki bazı noktalara katılıyorum (örneğin, "kesinlik derecesi") ve bazılarına katılmıyorum (örneğin, "CI verildiğinde, p değeri hiçbir şey eklemez") ama özellikle bir şeyin tekrarlanması gerektiğini düşünüyorum: analizinizi önceden bir Bayes olmadan yapmanın bir yolu olduğunu düşünüyorum . Şekil A2’de sunulan argüman gizli bir varsayım olarak önceden bir düz gerektirir. Biri diğer öncelikleri alabilir ve çok farklı sonuçlara varabilir; Sonuçlarınızı destekleyebilecek tamamen sıkıcı bir tartışma olduğunu sanmıyorum. Yukarıdaki @ whuber adlı kullanıcının yorumlarını gör.
amip diyor Reinstate Monica

@Geoff Cumming - İstatistik eğitimi ve sonuçların yorumlanması ile ilgili yorumlarınız çok takdir edilmektedir.
rolando2
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.