Uzun zaman önce iki örneklem T-testi kullanmak için normal dağılımın gerekli olduğunu öğrendim. Bugün bir meslektaşım N> 50 için normal dağılımın gerekli olmadığını öğrendiğini söyledi. Bu doğru mu?
Eğer doğruysa, merkezi limit teoremi yüzünden mi?
Uzun zaman önce iki örneklem T-testi kullanmak için normal dağılımın gerekli olduğunu öğrendim. Bugün bir meslektaşım N> 50 için normal dağılımın gerekli olmadığını öğrendiğini söyledi. Bu doğru mu?
Eğer doğruysa, merkezi limit teoremi yüzünden mi?
Yanıtlar:
Bir t-testin normalliği varsayımı
Belirli bir boyutta birçok farklı örnek alabileceğiniz geniş bir popülasyon düşünün. (Belirli bir çalışmada, genellikle bu örneklerden yalnızca birini toplarsınız.)
T-testi, farklı numunelerin araçlarının normal olarak dağıldığını varsayar; Nüfusun normal dağıldığı varsayılmaz.
Merkezi limit teoremi ile sonlu varyanslı bir popülasyondan alınan numuneler, popülasyonun dağılımından bağımsız olarak normal bir dağılıma yaklaşır. Temel kurallar, örneklem araçlarının normalde, örneklem büyüklüğü en az 20 veya 30 olduğu sürece dağıtıldığını söyler. Bir t-testinin daha küçük boyuttaki bir örnek üzerinde geçerli olması için, nüfus dağılımının yaklaşık olarak normal olması gerekir.
Normal olmayan dağılımlardan gelen küçük numuneler için t testi geçersiz, ancak normal olmayan dağılımlardan alınan büyük numuneler için geçerlidir.
Normal olmayan dağılımlardan küçük örnekler
Michael'ın not ettiği gibi, araçların normallik seviyesine yaklaştırılması için gereken örneklem büyüklüğü, popülasyonun normal olmayan derecesine bağlıdır. Yaklaşık normal dağılımlar için normal olmayan bir dağılım kadar büyük bir örneğe ihtiyacınız yoktur.
İşte bunun için R ile karşılaşabileceğiniz bazı simülasyonlar. İlk olarak, burada birkaç nüfus dağılımı var.
curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom
Daha sonra popülasyon dağılımlarından örneklerin bazı simülasyonları gösterilecektir. Bu satırların her birinde "10" örneklem büyüklüğü, "100" örneklem sayısı ve bundan sonraki fonksiyon popülasyon dağılımını belirtir. Numune araçlarının histogramlarını üretirler.
hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')
Bir t-testinin geçerli olması için bu histogramların normal olması gerekir.
require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')
Bir t-testinin faydası
Yeni verdiğim bilgilerin hepsinin biraz eski olduğunu belirtmeliyim; Artık bilgisayarlarımız olduğu için t testlerinden daha iyisini yapabiliriz. Frank'in belirttiği gibi, muhtemelen tco testi yapman gereken her yerde Wilcoxon testlerini kullanmak istersin .
Merkezi limit teoremi, bu bağlamda düşünülenden daha az faydalıdır. İlk olarak, birisinin daha önce işaret ettiği gibi, mevcut örneklem büyüklüğünün "yeterince büyük" olup olmadığını bilemez. İkincisi, CLT istenen tip I hatasını, tip II hatasından daha çok elde etmekle ilgilidir. Başka bir deyişle, t testi rekabetçi bir şekilde güçsüz olabilir. Bu nedenle Wilcoxon testi bu kadar popüler. Normallik geçerliyse, t testi kadar verimlidir. Normallik tutmuyorsa, keyfi olarak t-testinden daha verimli olabilir.
T-testinin sağlamlığı ile ilgili bir soruya önceki cevabımı görün .
Özellikle onlinestatsbook uygulamasıyla uğraşmanızı tavsiye ederim .
Aşağıdaki resim aşağıdaki senaryoya dayanmaktadır:
Elde edilen simülasyon,% 5'lik Tip I hataları almak yerine sadece% 4,5'lik Tip I hataları elde ettiğimi gösteriyor.
Bu sağlamlığı düşünmek, bakış açınıza bağlı.
Sadece bir örnek t testi ile olan deneyimimde , dağılımların çarpıklığının kurtozdan daha önemli olduğunu buldum . , ancak yağ kuyruklu dağılımlar için (5 serbestlik derecesinde, ile Tukey h dağılımı ), 40 numunenin nominal değere yakın ampirik bir tip I oranı almak için her zaman yeterli olduğunu buldum. . Dağılım çok çarpık olduğunda, daha birçok örneğe ihtiyacınız olabilir.
Örneğin, piyangoyu oynadığınızı varsayalım. Olasılık 100 bin dolar kazanacak ve olasılıkla bir dolar kaybedeceksin. Boş değerin ortalama geri dönüşünün, bu işlemin bin çekilişine dayanarak sıfır olduğunu belirten bir t testi yaparsanız, nominal I oranını elde edeceğinizi sanmıyorum. 1 - p
edit : duh, per @ whuber yorumunda yakalamak, verdiğim örnek ortalama sıfır olmadı, bu nedenle ortalama sıfır için yapılan testlerin I tipi oranla hiçbir ilgisi yok.
Piyango örneğinde genellikle sıfır standart sapma örneği olduğundan, t testi boğulur. Bunun yerine Goerg'in Lambert W x Gaussian dağılımını kullanarak bir kod örneği verdim . Burada kullandığım dağılımın 1355 civarında bir sapması var.
#hey look! I'm learning R!
library(LambertW)
Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)
test_ttest <- function(sampsize) {
samp <- LW.Gauss$rY(params)(n=sampsize)
tval <- t.test(samp, mu = moms$mean)
return(tval$p.value)
}
#to replicate randomness
set.seed(1)
pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
p vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
Bu kod, farklı örneklem büyüklükleri için ampirik reddetme oranını nominal 0,05 düzeyinde verir. 50 beden numunesi için, ampirik oran 0,40 (!); numune büyüklüğü 250, 0.29 için; numune büyüklüğü 1000, 0.21 için; numune büyüklüğü 2000, 0.18 için. Açıkçası, tek örnekli t-testi çarpıklıktan muzdarip.
Merkezi limit teoremi (gerekli koşullar altında) t-istatistiğinin payının asimptotik olarak normal olduğunu belirler. T-istatistik de bir payda var. Bir t-dağılımına sahip olmak için, paydaya bağımsız ve bir kare-kare-kare-on-df'ye ihtiyacınız olacaktır.
Ve bunun bağımsız olmayacağını biliyoruz (bu normali karakterize ediyor!)
Slutsky'nin CLT ile birleştirdiği teoremi, t-istatistiğinin asimptotik olarak normal olduğunu (ancak çok faydalı bir oranda olması gerekmediğini) verecektir.
Hangi teorem, normallik olmadığı zaman t-istatistiğinin yaklaşık olarak t-dağılımına sahip olduğunu ve ne kadar hızlı geldiğini belirler? (Tabii ki, sonunda t- normale de yaklaşacaktır, fakat başka bir yaklaşıma yaklaştırmanın sadece normal yaklaşımı kullanmaktan daha iyi olacağını varsayıyoruz ...)
Bununla birlikte, öngörülen seviye sağlamlığından daha büyük (daha büyük örneklem boyutlarında) gücü üzerindeki etkisidir . Wilcoxon-Mann-Whitney'ye göre (örneğin) t-testinin asimptotik göreceli verimliliğinin 0 olabileceğini unutmayın (örneğin, örneklem büyüklüğü küçülürken örnek büyüklükleri büyürken örnek büyüklükleri daha büyük olabilir) bariz bir alternatifle aynı güce sahip olması t).
Bu nedenle, t testi, yeterince büyük olması durumunda birçok durumda normal görünümlü güzel bir boşluğa sahip olmasına rağmen , boştaki performansı gerçekten insanların en çok değer verdiği şey değil - alternatifin altındaki performans - orada çok büyük olmayabilir, eğer etkinin toparlanması kolay olmadığı durumlarda boş değeri reddetmeyi düşünüyorsanız.
Evet, Merkezi Limit Teoremi bunun doğru olduğunu söylüyor. Aşırı derecede kuyruklu özelliklerden kaçındığınız sürece, Normallik olmayan, orta ila büyük numunelerde sorun çıkarmaz.
İşte yararlı bir inceleme makalesi;
http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546
Wilcoxon testi (diğerleri tarafından belirtildiği gibi), alternatif orijinal dağılımın konum kayması olmadığı zaman korkunç bir güce sahip olabilir. Ayrıca, dağılımlar arasındaki farkları ölçme şekli geçişli değildir.
Wilcoxon-Mann-Whitney testinin alternatif olarak kullanımı hakkında makaleyi tavsiye ediyorum Wilcoxon-Man-Whitney testi inceleme altında
Bir araç veya medyanların bir testi olarak, Wilcoxon-Mann-Whitney (WMW) testi, saf vardiya modelinden sapmalar için ciddi şekilde zararsız olabilir.
Bunlar, yazarın önerisi:
Rütbe dönüşümü, iki numunenin ortalama sapmalarını, standart sapmalarını ve çarpıklıklarını farklı şekilde değiştirebilir. Rütbe dönüşümünün yararlı bir etki elde etmek için garanti altına alındığı tek durum, dağılımların aynı olduğu ve örneklem büyüklüklerinin eşit olduğu durumdur. Bu oldukça katı varsayımlardan sapmalar için, rütbe dönüşümünün örnek anlar üzerindeki etkileri tahmin edilemez. Makalenin simülasyon çalışmasında WMW testi, Fligner-Policello testi (FP), Brunner-Munzel testi (BM), iki örnekli T testi (T), Welch U testi (U) ile karşılaştırılmıştır. ve Welch U testi saflarda (RU). Dört aşamalı testler (WMW, FP, BM ve RU) benzer şekilde yapıldı, ancak BM testi diğerlerinden biraz daha iyi. Örnek boyutları eşit olduğunda, parametrik testler (T ve U) eşit araçların sıfır hipotezi altında rütbe dayalı testlerden daha üstündür ancak eşit medyanların sıfır hipotezi altında değildir. Numune boyutları eşit olmadığında, BM, RU ve U testleri en iyi sonucu verdi. Birkaç ayar için, popülasyon özelliklerinde küçük değişiklikler testlerin performansında büyük değişikliklere neden oldu. Özet olarak, büyük örnek yaklaşık WMW testi, iki dağılım eşit şekillerde ve eşit ölçeklerde olmadıkça, iki popülasyonun araçlarını veya medyanlarını karşılaştırmak için kötü bir yöntem olabilir. Bu problem aynı zamanda kesin WMW testi, FP testi, BM testi ve saflardaki Welch U testi için de farklı derecelerde uygulanabilir görünmektedir. WMW testini kullanırken, yazarlar sıralı örneklerin özelliklerinin eğiklik ve varyans heterojenliği belirtileri için iyice araştırılmasını önermektedir.