Çok küçük bir örneklem büyüklüğüyle normalliği test etmek anlamlı mı (örn. N = 6)?


26

6 örneklem büyüklüğüne sahibim. Böyle bir durumda, Kolmogorov-Smirnov testini kullanarak normalliği test etmek mantıklı mı? SPSS kullandım. Çok küçük bir örneklem büyüklüğüne sahibim çünkü her birini almak zaman alıyor. Mantıklı değilse, test etmek için anlamlı olan en düşük sayı kaç örnek?

Not: Kaynak kodla ilgili bazı deneyler yaptım. Örnek, bir yazılım sürümünde kodlama için harcanan zamandır (sürüm A) Aslında, başka bir yazılım sürümünde (sürüm B) kodlama için harcanan zaman olan 6 tane başka bir örneklem boyutuna sahibim.

A kod kodunda harcanan zamanın B kod kodunda harcanan zamandan farklı olup olmadığını test etmek için bir örnek t testi kullanarak hipotez testi yapmak istiyorum (Bu benim H1'im). Tek örneklemeli t-testinin ön koşulu, test edilecek verilerin normal şekilde dağıtılması gerektiğidir. Bu yüzden normalliği test etmem gerekiyor.


6
Birincisi, n = 6 ve normalliğin test etmeye değer bir hipotez olacağı bir bağlam hayal etmekte zorlanıyorum. Korkarım ki bu, çok sayıda hipotez testi yapan deneyimsiz bir kullanıcının (artıkları normalleştirmek için bir regresyon çalıştırdıktan sonra bir regresyon yürüttüğü) ve belirtileri ele aldığımızdan ama dolabın içindeki iskeletleri görmezden geldiğimizden bir durumdur.
user603

3
@ user Sorgu hakkında spekülasyon yapmak haksızlıktır. Soruyu ele alalım, olur mu? Bu nedenle, pahalı bir karar vermek için kullanılacak bir değer için üst bir tahmin limiti hesaplamayı planladığınızı varsayalım. PL'nin değeri normallik varsayımlarına duyarlı olacaktır. Veri oluşturma sürecinin normal olmadığından oldukça eminsiniz, ancak verilerin üretilmesi pahalı ve zaman alıyor. Önceki deneyler, normalliği reddetmek için yeterince güçlü olacağını göstermektedir. (ABD'deki yeraltı suyu izleme programları için standart bir çerçeve tanımlamıştım.)n=6
whuber

3
Kullanıcı603 (ilk yorumunuz): @ Joris'in bir cevap vermediğini ve yorumuna herhangi bir gerekçeyle birlikte olmadığını belirtmek isterim. Eğer empatik bir "hayır" bu soruya geçerli bir genel cevap ise, bunu destekleyici bir argümanla yazıldığını görelim, böylece toplum tarafından aşağı yukarı değerlendirilebilir.
whuber

2
@ whuber: Ben empatik "hayır" için bir argüman ekledim.
Joris Meys

1
@Joris Teşekkürler! Bu yardımcı ve aydınlatıcı.
whuber

Yanıtlar:


38

Evet.

Tüm hipotez testlerinin iki belirgin özelliği vardır : büyüklükleri (veya “önem seviyesi”), doğrudan güven ve beklenen yanlış pozitif oranlarla ilgili bir sayı ve yanlış negatiflerin şansını ifade eden güçleri . Numune boyutları küçük olduğunda ve küçük bir boyutta ısrar etmeye devam ettiğinizde (yüksek güven) güç artar. Bu, küçük örneklem testlerinin genellikle küçük veya orta dereceli farklılıkları tespit edemediği anlamına gelir. Ama yine de anlamlılar .

KS testi, numunenin Normal dağılımdan gelip gelmediğini değerlendirir. Altı testten oluşan bir örnek, bu testi geçememek için gerçekten normal görünmeyecek. Fakat eğer öyleyse, boş değerin bu reddini tam olarak daha yüksek örneklem büyüklükleriyle yorumlayacağınız şekilde yorumlayabilirsiniz. Öte yandan, test sıfır boş hipotezini reddedemezse, yüksek yanlış negatif oran nedeniyle size çok az şey söyler. Özellikle, altta yatan dağılım Normalmiş gibi davranmak nispeten riskli olacaktır.

Burada dikkat edilmesi gereken bir şey daha var: Bazı yazılımlar, p-değerlerini test istatistiklerinden hesaplamak için yaklaşıkları kullanır. Genellikle, bu yaklaşımlar büyük örneklem büyüklükleri için iyi çalışır, ancak çok küçük örneklem büyüklüğü için kötü davranır. Bu durumda, p değerinin doğru hesaplandığına güvenemezsiniz, bu da istenen test boyutuna ulaşıldığından emin olamayacağınız anlamına gelir. Ayrıntılar için yazılımınızın belgelerine bakın.

Bazı tavsiyeler: KS testi normalde test için bu amaç için özel olarak yapılmış diğer testlerden daha az güçlüdür. Bunların en iyisi muhtemelen Shapiro-Wilk testidir, ancak diğerleri yaygın olarak kullanılan ve neredeyse güçlü olanları Shapiro-Francia ve Anderson-Darling'dir .

Bu grafik, Kolmogorov-Smirnov test istatistiğinin, normal dağılmış altı değişkenden oluşan 10.000 örnekte dağılımını göstermektedir:

KS istatistiğinin histogramı

100.000 ek örneğe dayanarak, en yüksek 95'inci yüzdelik değer (bu istatistik için bir test için kritik değeri tahmin eden ) 0.520'dir. Bu testi geçen bir örnek örneği veri kümesidir.α=5%

0.000, 0.001, 0.002, 1.000, 1.001, 1000000

Test istatistiği 0,5'tir (kritik değerden az). Böyle bir örnek diğer normallik testleri kullanılarak reddedilir.


10
Bir işaret veren herhangi bir dağıtım düşünüyorum. N = 6 ile sonuç o kadar normal olmayacak ki, uçan renklerle IOTT'yi geçecek - interocularis travma testi. Gözlerin arasında sana vurur.
Peter Flom - Eski Monica

2
@Peter Bu yorumu tekrar yazarsanız, doğru olur. Sonuçta, normal bir dağılıma ait birçok örnek tamamen normal görünecektir, bu nedenle açıkça "herhangi bir" bir niceleyici çok güçlüdür. Demek istediğim, olan rastgele bir örneğin , makul bir şekilde çizildiğinde ( örneğin , olasılık grafiği) açıkça normal olmama ihtimalinin yüksek olduğu, ancak bu test tarafından reddedilmeyeceği anlamına gelir. N = 6N=6N=6
whuber

Sadece eğlenmek için set.seed (3833782) x <- runif (6) ks.test (x, pnorm) denedim. Bu, p = .04 konumunda anlamlıydı. Böylece gerçekleşebilir
Peter Flom - Monica'yı yeniden konumlandırın

4
@Peter İyi! Normallik için yapılan KS testi, üniform bir örneği reddetti. Birinin umduğu şey budur.
whuber

3
set.seed(140);x=rnorm(6);ks.test(x,pnorm)üretir p-value = 0.0003255. Elbette bunu bulmadan önce 140 tohumla denemek zorunda kaldım ...
Spacedman

20

@Whuber'ın yorumlarda sorduğu gibi, kategorik NO'm için bir doğrulama. düzenleme: shapiro testi ile, tek örnekli ks testi aslında yanlış kullanıldığı için. Whuber doğru: Kolmogorov-Smirnov testinin doğru kullanımı için, dağıtım parametrelerini belirlemelisiniz ve bunları veriden çıkarmamalısınız. Bununla birlikte, tek örnekli KS testi için SPSS gibi istatistiksel paketlerde bu yapılır.

Dağıtım hakkında bir şeyler söylemeye çalışıyorsunuz ve bir t testi yapıp yapamayacağınızı kontrol etmek istiyorsunuz. Dolayısıyla bu test, analizin altında yatan varsayımları geçersiz kılmak için verilerin normalden önemli ölçüde ayrılmadığını doğrulamak için yapılır . Dolayısıyla, tip I-hata ile ilgilenmiyorsunuz, ancak tip II-hata ile ilgileniyorsunuz.

Şimdi, kişi kabul edilebilir güç için minimum n'yi hesaplayabilmek için "önemli ölçüde farklı" tanımlamalıdır (0.8). Dağıtımlarla, tanımlaması kolay değil. Bu nedenle, ben soruyu cevaplamadım, çünkü kullandığım kurallardan başka, mantıklı bir cevap veremiyorum: n> 15 ve n <50. Neye göre? Temelde Gut hissedersin, o yüzden bu seçimi deneyim dışında savunamam.

Ancak, yalnızca 6 değerle tip II hatanızın neredeyse 1 olması gerektiğini ve gücünüzü 0'a yakın tuttuğunu biliyorum. 6 gözlemle, Shapiro testi normal, poisson, tek tip ve hatta üstel dağılım arasında ayrım yapamaz. II türünde bir hata neredeyse 1 olurken, test sonucunuz anlamsızdır.

Shapiro testi ile normalite testini göstermek için:

shapiro.test(rnorm(6)) # test a the normal distribution
shapiro.test(rpois(6,4)) # test a poisson distribution
shapiro.test(runif(6,1,10)) # test a uniform distribution
shapiro.test(rexp(6,2)) # test a exponential distribution
shapiro.test(rlnorm(6)) # test a log-normal distribution

Değerlerin yaklaşık yarısının 0,05'ten küçük olması sadece sonuncudur. Aynı zamanda en uç durum budur.


Eğer shapiro testinde size neyi sevdiğiniz gücü veren minimum değeri bulmak istiyorsanız, şunun gibi bir simülasyon yapabilirsiniz:

results <- sapply(5:50,function(i){
  p.value <- replicate(100,{
    y <- rexp(i,2)
    shapiro.test(y)$p.value
  })
  pow <- sum(p.value < 0.05)/100
  c(i,pow)
})

size bunun gibi bir güç analizi verir:

görüntü tanımını buraya girin

üstelik vakaların% 80'inde bir üsteli normal bir dağılımdan ayırt etmek için kabaca minimum 20 değere ihtiyacınız olduğuna karar verdim.

kod grafiği:

plot(lowess(results[2,]~results[1,],f=1/6),type="l",col="red",
    main="Power simulation for exponential distribution",
    xlab="n",
    ylab="power"
)

2
@whuber: kafasında hipotez testinin mantığı ile ilgili: hangi durumda alternatif hipotezle ilgileniyorsunuz? Gördüğüm bu testlerin tüm uygulamalarında insanlar boş değerin onaylanmasıyla ilgileniyor: verilerim normal dağılımdan önemli ölçüde farklı değil. Bu yüzden tip II hatasını vurguluyorum.
Joris Meys

4
Yeraltı suyu izlemesi ile ilgili OP'ye yorumlarımı gör. Genellikle insanlar iki varsayılan varsayımın birini veya ikisini reddetmekle ilgilenirler : normallik ve lognormallik. Bu, sıkı bir düzenleyici denetim altında yapıldığından, olasılık grafiğini (@Peter Flom gibi deneyimli IOTT uygulayıcıları için güçlü bir araçtır) göz küresi yapmak yeterli değildir: resmi testler gereklidir. İnsan sağlığı risk değerlendirmesinde de benzer bir uygulama söz konusudur; ABD EPA rehber dokümanları özellikle in kadar olan testlerle ilgilidir . Bkz. Epa.gov/oswer/riskassessment/pdf/ucl.pdf , ör . 5n5
whuber

4
Başlığa geri dönmek için: Küçük örneklem büyüklükleriyle normalliği test etmek anlamlı mı? Bazı durumlarda, özellikle de aşırı derecede bükülmüş alternatiflere karşı test yaparken. (SW, LN (1,2) alternatifine karşı % 80 güce sahiptir , örn.) , küçük olduğunda birçok alternatife karşı düşük güç , normalite testlerinin herhangi bir hipotez testiyle bir dereceye kadar paylaştığı bir şeydir. Bu kullanımı engellemez. Dolayısıyla, kalifiye olmayan bir "hayır", hafifçe koymak, teste haksızlık etmektir. Daha genel olarak, hiç "küçük" örnekler üzerinde asla hipotez testleri kullanmamamız gerektiğini gösteriyor. Bu çok Draconian geliyor. nn=8n
whuber

3
@whuber: Farklı olmayı kabul etmek zorunda kalacağız. Tamamen EPA (ve kesinlikle FDA değil) kurallarının hayranı değilim. Bu istismara bir kez daha yararına inanmak için çok sık rastladım. Şans tuhaf bir şey ve sadece 6 vaka ile öngörülemez. Sadece 6 gözlemden yola çıkarak PDF gibi karmaşık bir işlev hakkında bir şey söyleyebileceğinizi sanmıyorum. YMMV
Joris Meys

5
@ImAlso T-testi, eğer oldukça simetrik ise, pek çok normale tahammül edebilir, fakat çok fazla asimetriye tahammül edemez. (Gerçekten de, normalite için bir çarpıklık testi, sadece bu nedenle OP'de KS testinden daha iyi bir seçenek olabilir.) Bu, uyum testlerinin iyiliği ile diğer hipotez testleri arasındaki en büyük farklardan birine işaret etmektedir: Olası alternatiflerin ve GoF testlerinin alanı, bazılarına karşı iyi olma eğilimindedir, ancak diğerlerine karşı değil. Tüm alternatiflere karşı iyi çalışmasını sağlayamazsın.
whuber

-2

Burada sorulan soru, Normallik kontrolünün 6 örneklem büyüklüğü için neden gerekli olduğu konusunda bazı yanlış kanılara sahip. Bu benim H1) ”. “Farklı” kelimesi kullanıldığında, tek kuyruk testi midir? Ancak Normallik testi ikinci bir adımdır. İlk adım, güç çok kötü olduğunda, belirli bir örneklem büyüklüğü için testin önceden belirlenmiş (1-β) gücünün yeterliliğini kontrol etmektir, sonra normallik durum testinin kullanımı nedir? Normallik koşulu kontrolü, Parametrik mi yoksa Parametrik olmayan mı? Eğer örnek büyüklüğünüz yeterli güce sahip değilse, neden Normallik testi yapılmalı?


(-1) Bu çok net değil. Lütfen soruları nasıl cevaplayacağınıza ilişkin bu sayfayı okuyun: stats.stackexchange.com/help/how-to-answer
mkt - Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.