N> 50 olduğunda normal olmayan için T-testi?


77

Uzun zaman önce iki örneklem T-testi kullanmak için normal dağılımın gerekli olduğunu öğrendim. Bugün bir meslektaşım N> 50 için normal dağılımın gerekli olmadığını öğrendiğini söyledi. Bu doğru mu?

Eğer doğruysa, merkezi limit teoremi yüzünden mi?


3
Bir ile soru İlgili çok Glen_b tarafından iyi cevap stats.stackexchange.com/questions/121852/...
Tim

Yanıtlar:


82

Bir t-testin normalliği varsayımı

Belirli bir boyutta birçok farklı örnek alabileceğiniz geniş bir popülasyon düşünün. (Belirli bir çalışmada, genellikle bu örneklerden yalnızca birini toplarsınız.)

T-testi, farklı numunelerin araçlarının normal olarak dağıldığını varsayar; Nüfusun normal dağıldığı varsayılmaz.

Merkezi limit teoremi ile sonlu varyanslı bir popülasyondan alınan numuneler, popülasyonun dağılımından bağımsız olarak normal bir dağılıma yaklaşır. Temel kurallar, örneklem araçlarının normalde, örneklem büyüklüğü en az 20 veya 30 olduğu sürece dağıtıldığını söyler. Bir t-testinin daha küçük boyuttaki bir örnek üzerinde geçerli olması için, nüfus dağılımının yaklaşık olarak normal olması gerekir.

Normal olmayan dağılımlardan gelen küçük numuneler için t testi geçersiz, ancak normal olmayan dağılımlardan alınan büyük numuneler için geçerlidir.

Normal olmayan dağılımlardan küçük örnekler

Michael'ın not ettiği gibi, araçların normallik seviyesine yaklaştırılması için gereken örneklem büyüklüğü, popülasyonun normal olmayan derecesine bağlıdır. Yaklaşık normal dağılımlar için normal olmayan bir dağılım kadar büyük bir örneğe ihtiyacınız yoktur.

İşte bunun için R ile karşılaşabileceğiniz bazı simülasyonlar. İlk olarak, burada birkaç nüfus dağılımı var.

curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom

Daha sonra popülasyon dağılımlarından örneklerin bazı simülasyonları gösterilecektir. Bu satırların her birinde "10" örneklem büyüklüğü, "100" örneklem sayısı ve bundan sonraki fonksiyon popülasyon dağılımını belirtir. Numune araçlarının histogramlarını üretirler.

hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Bir t-testinin geçerli olması için bu histogramların normal olması gerekir.

require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Bir t-testinin faydası

Yeni verdiğim bilgilerin hepsinin biraz eski olduğunu belirtmeliyim; Artık bilgisayarlarımız olduğu için t testlerinden daha iyisini yapabiliriz. Frank'in belirttiği gibi, muhtemelen tco testi yapman gereken her yerde Wilcoxon testlerini kullanmak istersin .


7
İyi açıklama (+1). Ancak, araçların yaklaşık normallik seviyesine dağılması için gerekli olan örneklem büyüklüğünün, popülasyonun normal olmama derecesine bağlı olduğunu da ekleyeceğim. Büyük numuneler için, dağılımlar hakkında hiçbir varsayımda bulunmayan permütasyon testi yerine t testi tercih etmek için bir neden yoktur.
Michael Lew,

2
+1, bildiğim kadarıyla, t-testi normallikten orta sapmalara oldukça dirençli. Ayrıca, ilginç bir ilgili tartışma: stats.stackexchange.com/questions/2492/…
nico

4
cevap, kaçırdığınız küçük bir ayrıntı olmasına rağmen: verilerin dağılımı sonlu varyansa sahip olmalıdır. T-testi, iki Cauchy dağılımının (ya da 2 serbestlik derecesine sahip öğrencinin) konumundaki farklılığı karşılaştırmak için umutsuzdur, çünkü "sağlam değildir", ancak bu dağılımlar için, örnekte, araçların ötesinde ek bilgi bulunmaktadır. ve t-testinin attığı standart sapmalar.
probabilityislogic

2
Buna ek olarak, t testi ayrıca incelenen parametre için doğal olarak güven aralıkları sağlar. (soruyu doğrudan ele alan ilk iki paragraftan dolayı hala olumlu oylar, sadece üçüncüye kesinlikle karşıyım)
Erik

6
t-testi DOES, nüfusun normalliğini gerektirir. Bu, istatistiklerin t-Öğrenci dağılımına sahip olması için gerekli bir varsayımdır. Normal bir popülasyonunuz yoksa, t istatistiğini, serbestlik derecelerine bölünmüş bir Ki-kare değişkenin köküne bölünmüş standart bir normal değişken olarak ifade edemezsiniz. Belki de söylemeye çalıştığınız şey, eğer bazı koşullar doğruysa, çok fazla çarpıklık veya büyük bir örneklem gibi, popülasyon normal olmasa bile testin geçerli olabileceğidir.
toneloy

44

Merkezi limit teoremi, bu bağlamda düşünülenden daha az faydalıdır. İlk olarak, birisinin daha önce işaret ettiği gibi, mevcut örneklem büyüklüğünün "yeterince büyük" olup olmadığını bilemez. İkincisi, CLT istenen tip I hatasını, tip II hatasından daha çok elde etmekle ilgilidir. Başka bir deyişle, t testi rekabetçi bir şekilde güçsüz olabilir. Bu nedenle Wilcoxon testi bu kadar popüler. Normallik geçerliyse, t testi kadar verimlidir. Normallik tutmuyorsa, keyfi olarak t-testinden daha verimli olabilir.


7
(+1) Bulduğunuza sevindim, siteye hoş geldiniz. Buraya katılımınızı sabırsızlıkla bekliyorum.
kardinal

4
(+1) Wilcoxon hakkında iyi bir nokta.
whuber

18

T-testinin sağlamlığı ile ilgili bir soruya önceki cevabımı görün .

Özellikle onlinestatsbook uygulamasıyla uğraşmanızı tavsiye ederim .

Aşağıdaki resim aşağıdaki senaryoya dayanmaktadır:

  • sıfır hipotezi doğrudur
  • oldukça şiddetli çarpıklık
  • Her iki grupta da aynı dağılım
  • her iki grupta da aynı varyans
  • Grup 5 başına örneklem büyüklüğü (yani sorunuza göre 50'den az)
  • Bir milyondan fazla simülasyonu elde etmek için 10,000 simülasyon düğmesine yaklaşık 100 kez bastım.

Elde edilen simülasyon,% 5'lik Tip I hataları almak yerine sadece% 4,5'lik Tip I hataları elde ettiğimi gösteriyor.

Bu sağlamlığı düşünmek, bakış açınıza bağlı.

görüntü tanımını buraya girin


4
+1 İyi puanlar. Yine de, çarpık alternatifli t-testinin gücü ciddi şekilde düşebilir (büyük etki büyüklükleri için bile temelde sıfır olduğu noktaya kadar).
whuber

6

Sadece bir örnek t testi ile olan deneyimimde , dağılımların çarpıklığının kurtozdan daha önemli olduğunu buldum . , ancak yağ kuyruklu dağılımlar için (5 serbestlik derecesinde, ile Tukey h dağılımı ), 40 numunenin nominal değere yakın ampirik bir tip I oranı almak için her zaman yeterli olduğunu buldum. . Dağılım çok çarpık olduğunda, daha birçok örneğe ihtiyacınız olabilir.h=0.24999

Örneğin, piyangoyu oynadığınızı varsayalım. Olasılık 100 bin dolar kazanacak ve olasılıkla bir dolar kaybedeceksin. Boş değerin ortalama geri dönüşünün, bu işlemin bin çekilişine dayanarak sıfır olduğunu belirten bir t testi yaparsanız, nominal I oranını elde edeceğinizi sanmıyorum. 1 - pp=1041p

edit : duh, per @ whuber yorumunda yakalamak, verdiğim örnek ortalama sıfır olmadı, bu nedenle ortalama sıfır için yapılan testlerin I tipi oranla hiçbir ilgisi yok.

Piyango örneğinde genellikle sıfır standart sapma örneği olduğundan, t testi boğulur. Bunun yerine Goerg'in Lambert W x Gaussian dağılımını kullanarak bir kod örneği verdim . Burada kullandığım dağılımın 1355 civarında bir sapması var.

#hey look! I'm learning R!
library(LambertW)

Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)

test_ttest <- function(sampsize) {
    samp <- LW.Gauss$rY(params)(n=sampsize)
    tval <- t.test(samp, mu = moms$mean)
    return(tval$p.value)
}

#to replicate randomness
set.seed(1)

pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

p    vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

Bu kod, farklı örneklem büyüklükleri için ampirik reddetme oranını nominal 0,05 düzeyinde verir. 50 beden numunesi için, ampirik oran 0,40 (!); numune büyüklüğü 250, 0.29 için; numune büyüklüğü 1000, 0.21 için; numune büyüklüğü 2000, 0.18 için. Açıkçası, tek örnekli t-testi çarpıklıktan muzdarip.


Örnekte, testin gücünü tartışıyorsunuz, boyutunu değil. Bu arada, null değeri , bunun için dağılımın dejenere olduğu (tek bir noktada bir atom): bu olabildiğince normal olmaktan çok uzak! p=0
whuber

1

Merkezi limit teoremi (gerekli koşullar altında) t-istatistiğinin payının asimptotik olarak normal olduğunu belirler. T-istatistik de bir payda var. Bir t-dağılımına sahip olmak için, paydaya bağımsız ve bir kare-kare-kare-on-df'ye ihtiyacınız olacaktır.

Ve bunun bağımsız olmayacağını biliyoruz (bu normali karakterize ediyor!)

Slutsky'nin CLT ile birleştirdiği teoremi, t-istatistiğinin asimptotik olarak normal olduğunu (ancak çok faydalı bir oranda olması gerekmediğini) verecektir.

Hangi teorem, normallik olmadığı zaman t-istatistiğinin yaklaşık olarak t-dağılımına sahip olduğunu ve ne kadar hızlı geldiğini belirler? (Tabii ki, sonunda t- normale de yaklaşacaktır, fakat başka bir yaklaşıma yaklaştırmanın sadece normal yaklaşımı kullanmaktan daha iyi olacağını varsayıyoruz ...)


Bununla birlikte, öngörülen seviye sağlamlığından daha büyük (daha büyük örneklem boyutlarında) gücü üzerindeki etkisidir . Wilcoxon-Mann-Whitney'ye göre (örneğin) t-testinin asimptotik göreceli verimliliğinin 0 olabileceğini unutmayın (örneğin, örneklem büyüklüğü küçülürken örnek büyüklükleri büyürken örnek büyüklükleri daha büyük olabilir) bariz bir alternatifle aynı güce sahip olması t).t

Bu nedenle, t testi, yeterince büyük olması durumunda birçok durumda normal görünümlü güzel bir boşluğa sahip olmasına rağmen , boştaki performansı gerçekten insanların en çok değer verdiği şey değil - alternatifin altındaki performans - orada çok büyük olmayabilir, eğer etkinin toparlanması kolay olmadığı durumlarda boş değeri reddetmeyi düşünüyorsanız.n


3
Örneklemin ortalama ve varyansın bağımsız olup olmadığını bilemesek de, her zaman birbirleriyle ilişkisiz olduğunu biliyoruz . Bunun nedeni, örnek ortalamanın iki değişkenli toplamın bir işlevi olması ve örnek varyansının iki değişkenli farklılıkların bir işlevi olmasıdır (bunlar "U istatistik" olarak adlandırılır) ve Elimizdeki , dağılım "homojen" olduğu sürece , sorun bildiriminin bir parçası . xi+xjxixjv a r ( x i ) = v a r ( x j )cov(xi+xj,xixj)=var(xi)var(xj)+cov(xi,xj)cov(xj,xi)=0var(xi)=var(xj)
Olasılık 1

1
Maalesef, ilişkisiz ve bağımsız arasındaki fark, bir t-dağılımına son verecek olmamız durumunda geçerlidir.
Glen_b

0

Evet, Merkezi Limit Teoremi bunun doğru olduğunu söylüyor. Aşırı derecede kuyruklu özelliklerden kaçındığınız sürece, Normallik olmayan, orta ila büyük numunelerde sorun çıkarmaz.

İşte yararlı bir inceleme makalesi;

http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546

Wilcoxon testi (diğerleri tarafından belirtildiği gibi), alternatif orijinal dağılımın konum kayması olmadığı zaman korkunç bir güce sahip olabilir. Ayrıca, dağılımlar arasındaki farkları ölçme şekli geçişli değildir.


Wilcoxon hakkında ilginç noktalar. Bununla birlikte, t-testi benzer zorluklara sahiptir: özellikle, artan varyansın eşlik ettiği vardiyaların tespitinde kötüdür. Geçişlilik ile ilgili bit, bu bağlamda esas olarak bir merak gibi görünmektedir; Özgün hipotez testiyle veya yorumuyla ne kadar alakalı olduğunu görmek zor. (Fakat belki de bir
şeffaflık

Eşitsiz varyans t testi (bazı yazılımlarda varsayılan), heteroskedasticite sorunu yoktur.
misafir

Geçişlilik ile ilgili olarak; Örnek araçları veya araçlardaki farklılıkları rapor etmek (bir t-test yaklaşımı kullanarak doğal olan) okuyucuya diğer popülasyonlardan örnekleme yaparken göz önünde bulundurabilecekleri bir şey verir. Wilcoxon testinin geçişsizliği, bu yaklaşımın böyle bir analoji olmadığı anlamına gelir; veri sıralarını kullanmak çok sınırlı bir yaklaşımdır.
misafir

1
(1) Satterthwaite-Welch (eşitsiz varyans) testi, bahsettiğim güç kaybının üstesinden gelmiyor (biraz yardımcı olsa da). (2) Sıraları kullanarak "sınırlı" olarak nitelendirmede aşırı olduğunuzu düşünüyorum. @Frank Harrell, cevabında Wilcoxon testinin birçok ortamda nasıl yüksek verimlilik sağladığını gösteren çalışmalardan bahsediyordu: bu, sıralamaların t testlerine kıyasla daha sınırlı değil , hem etkili hem de daha esnek olduğunu gösteriyor.
whuber

(1) Hayır, orta-büyük örneklerde doğru Tip I hata oranını veriyor (2) Teşekkürler, ama saygılarımla aynı fikirde değilim. Wilcoxon'da t-testleri kullanmak, testler ile güven aralıkları kullanmak arasındaki boşluğu kapatmayı çok kolaylaştırıyor. Eğer biri sadece test yapmak istiyorsa ve bir çalışmada iki grubun ötesine asla bakmazsa, Wilcoxon elbette iyi çalıştığı durumlara sahiptir. Ancak çoğu zaman sadece test yapmak istemiyoruz ve kullanıcıların sonuçları diğer durumlara genelleştirmelerine yardımcı olmak istiyoruz; Wilcoxon testi o zaman yararlı değildir.
misafir

0

Wilcoxon-Mann-Whitney testinin alternatif olarak kullanımı hakkında makaleyi tavsiye ediyorum Wilcoxon-Man-Whitney testi inceleme altında

Bir araç veya medyanların bir testi olarak, Wilcoxon-Mann-Whitney (WMW) testi, saf vardiya modelinden sapmalar için ciddi şekilde zararsız olabilir.

Bunlar, yazarın önerisi:

Rütbe dönüşümü, iki numunenin ortalama sapmalarını, standart sapmalarını ve çarpıklıklarını farklı şekilde değiştirebilir. Rütbe dönüşümünün yararlı bir etki elde etmek için garanti altına alındığı tek durum, dağılımların aynı olduğu ve örneklem büyüklüklerinin eşit olduğu durumdur. Bu oldukça katı varsayımlardan sapmalar için, rütbe dönüşümünün örnek anlar üzerindeki etkileri tahmin edilemez. Makalenin simülasyon çalışmasında WMW testi, Fligner-Policello testi (FP), Brunner-Munzel testi (BM), iki örnekli T testi (T), Welch U testi (U) ile karşılaştırılmıştır. ve Welch U testi saflarda (RU). Dört aşamalı testler (WMW, FP, BM ve RU) benzer şekilde yapıldı, ancak BM testi diğerlerinden biraz daha iyi. Örnek boyutları eşit olduğunda, parametrik testler (T ve U) eşit araçların sıfır hipotezi altında rütbe dayalı testlerden daha üstündür ancak eşit medyanların sıfır hipotezi altında değildir. Numune boyutları eşit olmadığında, BM, RU ve U testleri en iyi sonucu verdi. Birkaç ayar için, popülasyon özelliklerinde küçük değişiklikler testlerin performansında büyük değişikliklere neden oldu. Özet olarak, büyük örnek yaklaşık WMW testi, iki dağılım eşit şekillerde ve eşit ölçeklerde olmadıkça, iki popülasyonun araçlarını veya medyanlarını karşılaştırmak için kötü bir yöntem olabilir. Bu problem aynı zamanda kesin WMW testi, FP testi, BM testi ve saflardaki Welch U testi için de farklı derecelerde uygulanabilir görünmektedir. WMW testini kullanırken, yazarlar sıralı örneklerin özelliklerinin eğiklik ve varyans heterojenliği belirtileri için iyice araştırılmasını önermektedir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.