Eşleştirilmemiş bir t-testi için hangi normallik varsayımları gereklidir? Ve ne zaman tanışıyorlar?


12

Eşleştirilmiş bir t-testi yapmak istiyorsak , eşleşen ölçüm birimleri arasındaki ortalama farkın normal olarak dağıtılması şartıdır (doğru anlarsam) .

Eşleştirilmiş t-testinde, eşleşen ölçüm birimleri arasındaki farkın normal olarak dağıtılması (karşılaştırılan iki grubun her birinin dağılımı normal olmasa da) talebinde ifade edilir (AFAIK).

Bununla birlikte, eşleştirilmemiş bir t-testinde, eşleşen birimler arasındaki fark hakkında konuşamayız, bu nedenle iki grubun gözlemlerinin normal olmasını istiyoruz, böylece ortalamalarının farkı normal olacak. Bu da beni soruma götürüyor:

Normal olmayan iki dağılım için, araçlarının farkı normal şekilde dağıtılabilir mi? (ve böylece, anladığım kadarıyla - eşleşmemiş bir t-testi yapmak için ihtiyaç duyduğumuz gereksinimi karşılayın).

Güncelleme: (cevaplar için hepinize teşekkür ederim) Aradığımız genel kuralın gerçekten de araçların farkının normal olacağı, CLT nedeniyle iyi bir varsayım (yeterince büyük n altında) gibi göründüğünü görüyorum. Bu benim için şaşırtıcı (şaşırtıcı değil, sadece şaşırtıcı), bunun eşleştirilmemiş t-testi için nasıl çalıştığı, ancak tek örnek t-testi için de işe yaramayacak. Aşağıda açıklanacak bazı R kodları verilmiştir:

n1 <- 10
n2 <- 10
mean1 <- 50
mean2 <- 50
R <- 10000

# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
# hist(diffs)

P <- numeric(R)
MEAN <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    y2 <- runif(n2, 0, 2*mean2)
    MEAN[i] <- mean(y1) - mean(y2)
    P[i] <- t.test(y1,y2)$p.value
}
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
par(mfrow = c(1,2))
hist(P)
qqplot(P, runif(R)); abline(0,1)
sum(P<.05) / R # for n1=n2=10 -> 0.0715 # wrong type I error, but only for small n1 and n2 (for larger ones, this effect disappears)



n1 <- 100
mean1 <- 50
R <- 10000
P_y1 <- numeric(R)

for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}

par(mfrow = c(1,2))
hist(P_y1)
qqplot(P_y1, runif(R)); abline(0,1)
sum(P_y1<.05) / R # for n1=n2=10 -> 0.057  # "wrong" type I error

Teşekkürler.


5
(Xi,Yi)XiFYi=Xi+Zi{Zi}N(0,σ2)

Yanıtlar:


17

Uygulamada, Merkezi Limit Teoremi, çok çeşitli varsayımlar altında, test edilen iki numune aracının dağılımlarının, numune boyutları büyüdükçe (varsayımların geldiği yer) ne olursa olsun, normal dağılımlara yaklaşacağını garanti eder. temel verilerin dağılımları. Sonuç olarak, numune boyutu büyüdükçe, araçların farkı normal olarak dağıtılır ve eşleşmemiş bir t testinin nominal t dağılımının tatmin olması için gerekli t-istatistiği için gerekli şartlar. Dolayısıyla, daha pratik bir soru olabilir, istatistiğin gerçek dağılımı ve t dağılımı arasındaki farkı göz ardı edebilmem için örneklem büyüklüğünün ne kadar olması gerekir?

Çoğu durumda, cevap, özellikle temel dağılımlar simetrik oldukça yakın olduğunda "çok büyük değil" dir. Örneğin, her biri örnek büyüklüğü 10 olan iki Tekdüze (0,1) dağılımın ortalamalarını karşılaştıran 100.000 test simülasyonu yaptım ve% 95 güven düzeyinde test yaparken, gerçekte zamanın% 5.19'unu boş olarak reddetti - neredeyse farklı değil umduğumuz nominal% 5 ret oranından (% 5'in üzerinde yaklaşık 2,7 standart sapma olmasına rağmen).

Bu nedenle insanlar t-testini, temel varsayımların gerçekte karşılanmadığı her türlü durumda kullanırlar, ancak elbette kilometreniz, probleminizin özelliklerine bağlı olarak değişebilir. Bununla birlikte, normal olarak dağıtılmayan Wilcoxon testi gibi, veriler Normal olarak dağıtıldığında bile asimptotik olarak t testi kadar yaklaşık% 95 (yani bir örnek boyutu gerektirir) olan başka testler de vardır. N / 0.95 arasındadır, N sonsuzluğa gittikçe N örnek büyüklüğü ile bir t-testi ile aynı güce sahiptir). Veriler Normal olarak dağıtılmadığında, t-testinden çok daha iyi olabilir (zorunlu olmayabilir).


6
tt

Teşekkürler Frank - yorumunuz bana ne olduğuma daha yakın bir soru eklememe
Tal Galili

1

Elbette. Eğer durum böyle olmasaydı, bağımsız numuneler t-testi çok işe yaramazdı. Gerçekten daha büyük örnek boyutlarına ihtiyacımız var, çünkü normal olmayan iki popülasyon arasındaki ortalamadaki bir farkı test etmemiz için CLT'ye başvurmamız gerekiyor.

Hızlı bir örnek için, ortalama 25 ile bir üstelden gelen nüfus 1'e ve ortalama 30 ile eşit olarak dağıtılan nüfus 2'ye sahip olduğumuzu varsayalım. Onlara farklı örnek boyutları bile vereceğiz. Örnekleme araçlarındaki farklılıkların dağılımının çoğaltma fonksiyonunu kullanarak R'yi nispeten kolay bir şekilde nasıl kullandığını inceleyebiliriz.

n1 <- 30
n2 <- 25
mean1 <- 25
mean2 <- 30

diffs <- replicate(10000, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
hist(diffs)

Örnek boyutları ile oynamak, düşük örnek boyutlarında gerçekten normalliğe sahip olmadığımızı, ancak örnek boyutunu arttırmanın, araçlardaki fark için bize daha normal görünümlü bir örnekleme dağılımı verdiğini gösterecektir. Elbette daha fazla araştırmak için bu örnekte kullanılan dağılımları değiştirebilirsiniz. geçmiş (diffs)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.