Tekrar deneylerin hangi kısmının, ilk deneyin% 95 güven aralığında bir etki büyüklüğü olacaktır?


12

Rastgele örnekleme, Gauss popülasyonları, eşit varyanslar, P-hackleme vb.İle ideal bir duruma geçelim.

Adım 1. İki numune aracının karşılaştırıldığı bir deneme çalıştırın ve iki popülasyon aracı arasındaki fark için% 95 güven aralığı hesaplayın.

2. Adım. Çok daha fazla deneme (binlerce) gerçekleştirirsiniz. Ortalamalar arasındaki fark, rastgele örnekleme nedeniyle deneyden deneye değişecektir.

Soru: Adım 2'de deneylerin toplanmasından elde edilen ortalamalar arasındaki farkın ne kadarı adım 1'in güven aralığı içinde olacaktır?

Bu cevaplanamaz. Her şey 1. adımda neler olduğuna bağlıdır. 1. adım deneyi çok atipikse, sorunun cevabı çok düşük olabilir.

Bu nedenle, her iki adımın da birçok kez tekrarlandığını düşünün (adım 2 ile daha fazla kez tekrarlayın). Şimdi, tekrar deneylerin ortalama bir kısmının, ilk denemenin% 95 güven aralığı içinde ortalama bir etki büyüklüğüne sahip olması için bir beklenti bulmak mümkün olabileceğini düşünüyorum.

Şu anda çok sıcak bir alan olan çalışmaların tekrarlanabilirliğini değerlendirmek için bu soruların cevabının anlaşılması gerektiği anlaşılıyor.


Her orijinal (aşama 1) deney için tanımlamak sonraki (aşama 2) fraksiyonu olarak orijinal sonucun güven aralığı içinde bu üretmek bulgular elde edilir. ampirik dağılımını hesaplamak mı istiyorsunuz ? x i xixix
Matthew Gunn

Evet, ne istediğimi anlıyorsunuz
Harvey Motulsky

@MatthewGunn, gelecekteki gözlemler için "yakalama kesiri" nin ampirik dağılımını isteyip istemediğinizi sordu. Mesajınız "... ortalama olarak, tekrarlanan deneylerin hangi kısmının, ilk denemenin% 95 güven aralığı içinde bir etki büyüklüğüne sahip olacağına dair bir beklenti ortaya koymak için mümkün olması gerektiğini düşünüyorum" diye sordu . Bu bir dağılım değil, beklenen bir değerdir (ortalama).

Whuber'ın analizi harika, ancak bir alıntıya ihtiyacınız varsa, bu soruyu tam olarak ayrıntılı bir şekilde tartışan bir makale: Cumming & Maillardet, 2006, Güven Aralıkları ve Çoğaltma: Bir Sonraki Ortalama Nereye Düşecek? . Buna güven aralığının yüzdesini yakalama derler .
amip, Reinstate Monica

Yanıtlar:


12

analiz

Bu kavramsal bir soru olduğundan, basitlik için güven aralığının ortalama yapıda olmasıdır kullanılarak gelişigüzel bir örnek, büyüklüğü ve bir ikinci rasgele numune büyüklüğü alınır aynı Normal arasından, dağıtım. (Sizin gibi değiştirebilir durumunda Öğrenci gelen değerlere göre ler dağılımı serbestlik derecesi, aşağıdaki analiz değişmez.)[ ˉ x ( 1 ) + Z α / 2 s ( 1 ) / 1αμx(1)nx(2)m(μ,σ2)Ztn-1

[x¯(1)+Zα/2s(1)/n,x¯(1)+Z1α/2s(1)/n]
μx(1)nx(2)m(μ,σ2)Ztn1

İkinci örneğin ortalamasının birincisi tarafından belirlenen CI içinde olma şansı

Pr(x¯(1)+Zα/2ns(1)x¯(2)x¯(1)+Z1α/2ns(1))=Pr(Zα/2ns(1)x¯(2)x¯(1)Z1α/2ns(1)).

İlk örnek ortalaması ilk örnek standart sapması den bağımsız olduğu için (bu normallik gerektirir) ve ikinci örnek birinciden bağımsız olduğundan, örnek U'daki fark bağımsızdır . Ayrıca, bu simetrik aralık için . Bu nedenle, rastgele değişken için yazma ve her iki eşitsizliği kareleme, söz konusu olasılık aynıx¯(1)s(1)U=x¯(2)x¯(1)s(1)Zα/2=Z1α/2Ss(1)

Pr(U2(Z1α/2n)2S2)=Pr(U2S2(Z1α/2n)2).

Beklenti yasaları, ortalaması ve varyansı anlamına gelirU0

Var(U)=Var(x¯(2)x¯(1))=σ2(1m+1n).

Yana normal değişkenlerin doğrusal bir kombinasyonudur, bu da normal bir dağılıma sahiptir. Bu nedenle, olduğu kez değişken. Biz zaten biliyorduk olduğu kere değişken. Sonuç olarak, , dağılımına sahip bir değişkenin katıdır . Gerekli olasılık F dağılımı tarafından şu şekilde verilir:UU2σ2(1n+1m)χ2(1)S2σ2/nχ2(n1)U2/S21/n+1/mF(1,n1)

(1)F1,n1(Z1α/221+n/m).

Tartışma

İlginç bir durum, ikinci örneğin birinciyle aynı boyutta olması, böylece ve sadece ve olasılığı belirler. İşte için karşı çizilen değerleri .n/m=1nα(1)αn=2,5,20,50

şekil

Grafikleri, her bir sınır değere yükselir olarak artar. Geleneksel test boyutu dikey gri bir çizgi ile işaretlenmiştir. değerleri için için sınırlama şansı yaklaşık .αnα=0.05n=mα=0.0585%

Bu sınırı anlayarak, küçük örneklem boyutlarının ayrıntılarını gözden geçireceğiz ve konunun temelini daha iyi anlayacağız. Olarak büyürse, dağılımı yaklaşımlar dağıtım. Standart Normal dağılım , olasılık yaklaşık olarakn=mFχ2(1)Φ(1)

Φ(Z1α/22)Φ(Zα/22)=12Φ(Zα/22).

Örneğin, , ve . Sonuç olarak, arttıkça eğrilerin ulaştığı sınırlayıcı değer . için neredeyse ulaşıldığını görebilirsiniz (şansın olduğu yerde ).α=0.05Zα/2/21.96/1.411.386Φ(1.386)0.083α=0.05n12(0.083)=10.166=0.834n=500.8383

Küçük İçin , ilişkisi ve tamamlayıcı olasılık - CI getirmeme riskini değil , ikinci ortalama kapak - neredeyse mükemmel bir güç yasasıdır. αα Bunu ifade etmenin başka bir yolu da log tamamlayıcı olasılığının fonksiyonunun neredeyse doğrusal bir fonksiyonudur . Sınırlayıcı ilişki yaklaşık olaraklogα

log(2Φ(Zα/22))1.79712+0.557203log(20α)+0.00657704(log(20α))2+

Büyük diğer bir deyişle, ve geleneksel değere yakın bir yerde , yakın olacakn=mα0.05(1)

10.166(20α)0.557.

(Bu bana /stats//a/18259/919 adresinde yayınladığım örtüşen güven aralıklarının analizini hatırlatıyor . Gerçekten de, oradaki sihirli güç, , neredeyse sihirli gücün karşılıklı Bu noktada , . Bu noktada, bu analizi, deneylerin tekrarlanabilirliği açısından yeniden yorumlayabilmelisiniz.)1.910.557


Deneysel sonuçlar

Bu sonuçlar basit bir simülasyonla doğrulanır. Aşağıdaki Rkod, kapsama sıklığını, ile hesaplanan şansı ve ne kadar farklı olduklarını değerlendirmek için bir Z skoru döndürür . Z skorları, tipik olarak daha az olan bağımsız olarak, boyut olarak (ya da hatta olup ya da , formül doğruluğunu gösteren Cl hesaplanır), .(1)2n,m,μ,σ,αZt(1)

n <- 3      # First sample size
m <- 2      # Second sample size
sigma <- 2 
mu <- -4
alpha <- 0.05
n.sim <- 1e4
#
# Compute the multiplier.
#
Z <- qnorm(alpha/2)
#Z <- qt(alpha/2, df=n-1) # Use this for a Student t C.I. instead.
#
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + Z * s.1 / sqrt(n)
u.1 <- x.1.bar - Z * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(m*n.sim, mu, sigma), nrow=m))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
# Compute the theoretical chance and compare it to the simulated frequency.
#
f <- pf(Z^2 / ((n * (1/n + 1/m))), 1, n-1)
m.covers <- mean(covers)
(c(Simulated=m.covers, Theoretical=f, Z=(m.covers - f)/sd(covers) * sqrt(length(covers))))

Z yerine t kullanmanın fazla bir fark yaratmayacağını söylüyorsunuz. Sana inanıyorum ama henüz kontrol etmedim. Küçük örneklem büyüklüğü ile iki kritik değer çok farklı olabilir ve t dağılımı CI'yi hesaplamak için doğru yoldur. Neden z?
Harvey Motulsky

Tamamen açıklayıcıdır ve daha basittir. Eğer kullandığınız zaman o şekilde eğrileri yüksek başlatmak ve onların sınırı inmek olması ilginçtir. Özellikle, önemli sonuçlar elde etme şansı küçük numuneler için büyük numunelerden çok daha yüksektir! Kontrol edilecek bir şey olmadığını unutmayın, çünkü uygun Student t dağılımının (veya adlandırmak isteyebileceğiniz diğer dağıtımların) yüzde noktası olarak yorumlamakta özgürsünüz . Analizde hiçbir değişiklik yok. Belirli efektleri görmek istiyorsanız , koddaki satırın açıklamasını kaldırın . ZtZαqt
whuber

1
+1. Bu harika bir analizdir (ve cevabınızın ne olduğuna dair çok az sayıda oy vardır). Bu soruyu ayrıntılı olarak tartışan bir makaleye geldim ve ilginizi çekebileceğini düşündüm: Cumming & Maillardet, 2006, Güven Aralıkları ve Çoğaltma: Bir Sonraki Ortalama Nereye Düşecek? . Buna güven aralığının yüzdesini yakalama derler .
amip, Reinstate Monica

@Amoeba Referans için teşekkür ederim. Özellikle buradaki genel bir sonuca minnettarım: "Çoğaltma, bilimsel yöntemin merkezinde yer alır ve araştırmacılar, sadece tek bir çalışmanın doğal belirsizliğini belirginleştirdiği için kör bir göze dönmemelidir."
whuber

1
Güncelleme: Kardeş iş parçacığında devam eden tartışmalar sayesinde, yukarıdaki yorumdaki gerekçemin doğru olmadığına inanıyorum . % 95 CI'lerin% 83 "replikasyon yakalama" özelliği vardır, ancak bu tekrarlanan örnekleme ile ilgili bir ifadedir ve en azından başka varsayımlar olmaksızın belirli bir güven aralığında koşullandırılmış bir olasılık verdiği şeklinde yorumlanamaz. (Belki de bu ve önceki yorumların daha fazla okuyucuyu karıştırmamak için silinmesi gerekir.)
amip diyor Reinstate Monica

4

[WHuber'ın işaret ettiği hatayı düzeltmek için düzenlendi.]

T dağılımını kullanmak için @ Whuber'ın R kodunu değiştirdim ve örnek boyutunun bir fonksiyonu olarak kapsamı çizdim. Sonuçlar aşağıdadır. Yüksek örneklem büyüklüğünde sonuçlar elbette WHuber ile eşleşir.

resim açıklamasını buraya girin

Ve burada adapte edilmiş R kodu, alfa 0.01 veya 0.05'e ayarlanmış olarak iki kez çalıştırılır.

sigma <- 2 
mu <- -4
alpha <- 0.01
n.sim <- 1e5
#
# Compute the multiplier.

for (n in c(3,5,7,10,15,20,30,50,100,250,500,1000))
{
   T <- qt(alpha/2, df=n-1)     
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + T * s.1 / sqrt(n)
u.1 <- x.1.bar - T * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(n*n.sim, mu, sigma), nrow=n))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
Coverage=mean(covers)

print (Coverage)

}

İşte grafiği yapan GraphPad Prism dosyası.


Ben senin araziler inanıyorsun değil kullanmak t nedeni teknik bir hata, dağıtım: Eğer değerini ayarlamak Tdöngü dışında! Doğru eğrileri görmek istiyorsanız, Rcurve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")
kodumun

1
@whuber. Olmadı! Tabii ki haklısın. Utandırıcı. Ben düzelttim. Belirttiğiniz gibi, küçük örnek boyutları ile kapsam daha yüksektir. (Simülasyonları düzelttim ve teorik fonksiyonunuzu denemedim.)
Harvey Motulsky

Düzelttiğiniz için memnunum, çünkü küçük örnek boyutları için kapsamın ne kadar yüksek olduğu çok ilginç. Biz Sorunuzun invert da olabilir ve belirlemek için formülü kullanın ne değeri biz olasılık ile, (herhangi bir deney yapmadan önce) temin etmek istediği takdirde kullanmayı (diyelim), ortalama o ikinci deney, ikinciden belirlenen iki taraflı güven aralığı içinde olacaktır . Bunu yapmak, rutin bir uygulama olarak, NHST'nin bazı eleştirilerine hitap etmenin ilginç bir yolu olabilir. Zα/2p=0.951α
Whuber

@whuber Sanırım bir sonraki adım kapsamın dağılımına bakmak. Şimdiye kadar, ortalama kapsama sahibiz (birçok ilk deneyin ortalaması, her biri ikinci deneyin ortalaması). Ancak ilk deneyin ne olduğuna bağlı olarak, bazı durumlarda ortalama kapsam zayıf olacaktır. Dağılımı görmek ilginç olurdu. Öğrenmeye yetecek kadar iyi R öğrenmeye çalışıyorum.
Harvey Motulsky

Dağıtımlarla ilgili olarak, yukarıdaki yorumlarda bağlandığım makaleye bakın.
amip: Reinstate Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.