Örneklerin dağılımları normal olmadığında bağımsız numuneler t-testi ne kadar sağlamdır?


24

Örneklerin dağılımları normallikten çıktığında t- testinin "makul derecede sağlam" olduğunu okudum . Tabii ki, önemli olan farklılıkların örnekleme dağılımı. İki grup için verilerim var. Gruplardan biri bağımlı değişkene aşırı eğridir. Örneklem büyüklüğü her iki grup için de oldukça küçüktür (birinde n = 33, diğerinde 45). Bu koşullar altında t- testimin normallik varsayımı ihlallerine karşı dayanıklı olacağını varsaymalı mıyım ?


3
"Elbette, önemli olan farklılıkların örnekleme dağılımı" - Neye göre farklılıklar? Gelecekteki okuyucular için yanıltıcı olacağından (ve ana noktaya teğet olmasından) korktuğum için bu konuyu düzenlemeye çalıştım. Benim ilk akla gelen oldu hatalı bir referans var idi eşleşmiş t biz çiftleri arasındaki farklılıkları varsayalım nerede -test, normaldir, ama bu bağımsız numuneler test geçerli değildir. Farkımız olacak çiftlerimiz bile yok! Belki de "araçlardaki fark" amaçlanmıştır? Q'nun geri kalanı, iki numunenin normalliğini göz önünde bulundurur, fark değildir.
Silverfish

Nasıl sağlam sorusu t tür ihlallerin etmektir-testi önemli ve meşru bir tanesidir. Ama bir diğer konu öncelikle veri ihlalleri için kontrol ve ancak olmasıdır sonra bir uygulamaya karar verirken t -testi veya bazı alternatif testi, tavsiye edilmez. Böyle bir çok aşamalı prosedür belirsiz çalışma özelliklerine sahiptir. Bu konuya bakınız: t testi veya parametrik olmayan, örneğin küçük örneklerde Wilcoxon arasında seçim yapmak için ilke bir yöntem
Silverfish

Güvenilir bir kaynak nedir? (Anladım, ikimiz de resmi bir kaynak diye bir şey olmadığı konusunda hemfikiriz). Seviyeye sağlamlığa mı, yoksa güce mi bakıyoruz? Ve eğer 'güç' ise ... ne tür bir alternatiften bahsediyoruz ?
Glen_b

@Glen_b Üzgünüz, "resmi kaynaklar" ödül mesajı StackOverflow için açıkça daha fazla! Ben sadece bu konunun pratik olarak önemli olduğunu düşünüyorum (artı Wikipedia'da oldukça yüksek trafik ve zayıf). Peter Flom'un cevabının açıkça gösterdiği gibi "kanonik cevap" ödül şablonu uygunsuz olur. Bu konuda “ortak bir bilgi organı” olduğu hissine kapılıyorum - bu Q elinden istenirse, listem Dallal'inkine çok benzeyebilirdi (kurtosis ekledim ama bu eşit örneklem büyüklüğüne teşebbüs etmedim. normal olmayan normalliğe karşı korur)
Silverfish

@Glen_b Cevabınız benzer bir damar mayınları, bu yüzden yaygın olarak bilinen / kabul edilen bazı temel noktalar var gibi görünüyor. Derecem, varsayımları kapsadı, ancak ihlalin sonuçları değil: bilgim çeşitli kaynaklardan, bitlerden ve saçılmalardan geliyor (“psikologlar için istatistikler” tipi kitaplar, birçok istatistik teorisi metninden çok sonuçlara daha fazla dikkat edebilir) - aksi halde göndermiş olurdum. bir cevap bir ödül değil! Herhangi biri iyi bir kitapta iyi bir sayfalık bir özet biliyorsa, bu beni iyi yapar. Simülasyon sonuçlarına sahip birkaç kağıt varsa, bu da iyi. Gelecekte okuyan herhangi bir kişi başvurabilir ve alıntı yapabilir
Silverfish

Yanıtlar:


16

Sağlamlık ile ilgili soruların cevaplandırılması çok zordur - çünkü varsayımlar birçok yönden ve her yönden farklı derecelerde ihlal edilebilir. Simülasyon çalışması, olası ihlallerin yalnızca çok küçük bir kısmını örnekleyebilir.

Bilgisayar durumu göz önüne alındığında, ben genellikle çalıştırmak için zaman ayırmaya değer olduğunu düşünüyorum hem hem mevcut olup olmadığını, bir parametrik ve non-parametrik testi. Daha sonra sonuçları karşılaştırabilirsiniz.

Eğer gerçekten hırslıysanız, bir permütasyon testi bile yapabilirsiniz.

Ya Alan Turing, Ronald Fisher yapmadan önce işini yapsaydı? :-).


1
Peter, tam olarak bu soruyu cevaplamak için tarihi kurgu yazmam için bana ilham verdin!
Sycorax, Reinstate Monica'nın

12

@ PeterFlom ilk cümlesinde çivi çaktı.

Gördüğüm çalışmaların kabaca bir özetini vermeye çalışacağım (eğer bağlantılarını istiyorsanız biraz zaman alabilir):

Genel olarak, iki örnek t-testi, simetrik normallik açısından oldukça güçlüdür (gerçek tip I hata oranı kurtosis tarafından biraz etkilenir, güç çoğunlukla bundan etkilenir).

İki örnek hafifçe aynı yönde bükülürse, tek kuyruklu t testi artık tarafsız değildir. T-istatistiği dağılıma zıt bir şekilde eğrilir ve testin bir diğeriyle olduğundan daha fazla güce sahip olması durumunda çok daha fazla güce sahiptir. Ters yönlerde bükülüyorlarsa, I tipi hata oranı ağır şekilde etkilenebilir.

Ağır eğriltmenin daha büyük etkileri olabilir, ancak genel olarak konuşursak, iki kuyruklu bir sınama ile orta derecede eğriltme , sınamanızın gücünü diğer tarafa bir yöne tahsis etmesine dikkat etmezseniz çok da kötü değildir.

Kısacası - iki kuyruklu, iki örnekli t testi, anlamlılık düzeyi ve hafif yanlılık üzerine bir etkisi tolere ederseniz, bu tür şeyler için oldukça sağlamdır.

Dağılımların normal olmamak için pek çok, birçok yolu vardır, ancak bu yorumlar bu kapsamda değildir.


Oldukça güç sağlam olduğunu söylemenin doğru olduğundan emin değilim! Makul seviye sağlamdır, anlamlılık düzeyi kabaca doğrudur, ancak örneğin wilcoxon testleri normalliğe oldukça yakın olan alternatifler için tespit edilmesi zor olabilir. Bu aynı zamanda her grupta eşit sayıda gözlem olup olmadığı gibi faktörlere de bağlıdır: eşitsizlik durumunda sağlamlık çok daha kırılgan!
kjetil b halvorsen

1
@kjetilbhalvorsen Gördüğüm çalışmalar - kendim yaptığım bazı simülasyonlar da dahil (ve uzun zamandır hiç bakmadım; henüz sahip olmadığım bir şey görmüş olabilirsiniz), iktidar üzerindeki etkinin çoğunluğu göründü çoğunlukla seviyesi yukarı ve aşağı doğru itmek (Wilcoxon'u etkilemiyordu). Bu koşullarda Wilcoxon'un genel olarak iyi güç özellikleri göz önüne alındığında (özellikle ağır kuyruklu), Wilcoxon'un gücü kazanması yeterlidir - eğer seviyeleri benzer şekilde ayarlarsanız, beni ne kadar iyi şaşırttığı beni şaşırttı yaptı.
Glen_b -Reinstate Monica 9:12

7

@PeterFlom, simülasyon çalışmalarının hiçbir zaman tüm senaryoları ve olasılıkları kapsayamayacağından ve bu nedenle kesin bir cevaba yol açamayacağından bahsetti. Bununla birlikte, bazı simülasyonlar yaparak bu gibi bir konuyu gerçekten keşfetmeyi hala faydalı buluyorum (bu aynı zamanda öğrencilere Monte Carlo simülasyon çalışmaları fikrini tanıtırken kullanmak istediğim egzersiz türü de olabilir). Peki, hadi bunu deneyelim. Bunun için R kullanacağım.

Kod

n1 <- 33
n2 <- 45
mu1 <- 0
mu2 <- 0
sd1 <- 1
sd2 <- 1

iters <- 100000
p1 <- p2 <- p3 <- p4 <- p5 <- rep(NA, iters)

for (i in 1:iters) {

   ### normal distributions
   x1 <- rnorm(n1, mu1, sd1)
   x2 <- rnorm(n2, mu2, sd2)
   p1[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the right
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p2[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the left
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p3[i] <- t.test(x1, x2)$p.value

   ### first skewed to the left, second skewed to the right
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2)      * sd2 + mu2
   p4[i] <- t.test(x1, x2)$p.value

   ### first skewed to the right, second skewed to the left
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2)      * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p5[i] <- t.test(x1, x2)$p.value

}

print(round((apply(cbind(p1, p2, p3, p4, p5), 2, function(p) mean(p <= .05))), 3))

açıklama

  1. Önce grup büyüklüğünü ( n1ve n2), gerçek grup araçlarını ( mu1ve mu2) ve gerçek standart sapmaları ( sd1ve sd2) belirleriz.

  2. Daha sonra p-değerlerini depolamak için vektörleri çalıştırmak ve ayarlamak için yineleme sayısını tanımlarız.

  3. Sonra 5 senaryo altında veri simülasyonu yapıyorum:

    1. Her iki dağılım normal.
    2. Her iki dağıtım da sağa eğimlidir.
    3. Her iki dağılım da sola eğridir.
    4. İlk dağıtım sola, ikincisi sağa eğilir.
    5. İlk dağıtım sağa, ikincisi sola eğilir.

    Unutmayın ki çarpık dağılımları oluşturmak için ki-kare dağılımları kullanıyorum. Bir serbestlik derecesine sahip olanlar ağır eğri dağılımlardır. Tek serbestlik dereceli ki kare dağılımın gerçek ortalaması ve varyansı sırasıyla 1 ve 2'ye eşit olduğundan ( bkz. Wikipedia ), bu dağılımları ilk önce ortalama 0 ve standart sapma 1 olacak şekilde yeniden ölçeklendiririm ve sonra bunları yeniden ölçeklendirir. İstenilen gerçek ortalama ve standart sapma (bu bir adımda yapılabilir, ancak bu şekilde yapılması daha açık olabilir).

  4. Her durumda, t-testini uyguladım (Welch'in versiyonu - elbette ki iki grupta eşit değişkenler gösteren Öğrenci versiyonunu da dikkate alabilir) ve p-değerini daha önce ayarlanmış olan vektörlere kaydederim.

  5. Son olarak, tüm tekrarlamalar tamamlandıktan sonra, her vektör için p değerinin .05'e eşit veya daha düşük olduğunu hesaplarım (yani, test "anlamlı" dır). Bu ampirik reddetme oranıdır.

Bazı sonuçlar

  1. Tam olarak yukarıda anlatıldığı gibi benzetim yapmak:

       p1    p2    p3    p4    p5 
    0.049 0.048 0.047 0.070 0.070
    

    α=.05

  2. Kodu değiştirirsek mu1 <- .5, şunu alırız:

       p1    p2    p3    p4    p5 
    0.574 0.610 0.606 0.592 0.602
    

    Bu nedenle, her iki dağılımın da normal olduğu durumla karşılaştırıldığında (testin varsaydığı gibi), çarpıklık aynı yönde olduğunda güç aslında biraz daha yüksek görünmektedir ! Buna şaşırırsanız, bunu birkaç kez tekrarlamak isteyebilirsiniz (elbette, her seferinde biraz farklı sonuçlar elde edebilirsiniz), ancak kalıp kalacaktır.

    Tip I hata oranı tam olarak nominal olmadığından, eğriltmenin zıt yönlerde olduğu iki senaryo altında ampirik güç değerlerini yorumlamaya dikkat etmemiz gerektiğini unutmayın; Göster, o zaman her zaman maksimum güçte bir test yapacağım, ama tabii ki test de oldukça şişirilmiş bir Tip I hata oranına sahipti).

Kişi mu1(ve mu2- ama asıl önemli olan, ikisi arasındaki farktır) için bir dizi değer keşfetmeye başlayabilir ve daha da önemlisi, iki grubun (yani sd1ve sd2) gerçek standart sapmalarını değiştirmeye ve özellikle eşitsiz hale getirmeye başlayabilir . Ayrıca OP tarafından belirtilen örneklem büyüklüklerine de saplandım, fakat tabii ki düzeltilebilecek. Ve çarpıklık, ki-kare dağılımında bir serbestlik derecesinde gördüğümüzden farklı biçimlerde olabilir. Kesin bir cevap verememesine rağmen, bu yollara bu şekilde yaklaşmanın faydalı olduğunu düşünüyorum.


2
Bugünlerde bir dizi güçlü yarı-parametrik yöntem bulunduğundan, bu tartışma neden bu kadar değerli?
Frank Harrell,

(+1) Bir örneğin çarpık bir popülasyondan bir numunenin alındığı ve diğeri olmadığına inanıyorum, çünkü OP düşüncesinin verilerine yaptığı şey bu değildi. Ancak açık kod içeren bir cevap görmek güzel. (Hafif bir genelleme, bir okuyucunun, varsayımları ihlal edilmiş olan bir testi uygulamanın tehlikelerini öğretmeye çalışıyorsanız, geleneksel t-testi ile karşılaştırıldığında ne kadar sağlam yöntemlerin, yararlı bir pedagojik egzersiz olduğunu karşılaştırmasına izin verecektir. .)
Silverfish

2

Sizin durumunuzda, t-testi büyük olasılıkla Tip I hata oranı açısından sağlam olacak, ancak Tip II hata oranı açısından sağlam değildir. Muhtemelen a) Kruskal-Wallis testi ya da b) t-testinden önce normalize edici bir dönüşümle daha fazla güç elde edersiniz.

Bu sonucu iki Monte Carlo çalışmasına dayandırıyorum. İlkinde ( Khan & Rayner, 2003 ), çarpıklık ve kurtozis g-ve-k dağılım ailesinin parametreleri ile dolaylı olarak manipüle edildi ve ortaya çıkan güç incelendi. Önemli olarak, Kruskal-Wallis testinin gücü, normalde olmamakla, özellikle n> = 15 için daha az zarar görmüştü.

Bu çalışma hakkında birkaç uyarı / nitelik: Güç, yüksek kurtozis nedeniyle sıklıkla zarar görmüştür, ancak çarpıklıktan daha az etkilenmiştir. İlk bakışta, bu model kurtosis değil, çarpıklık ile ilgili bir sorun olduğunu belirttiğiniz durumla daha az alakalı görünebilir. Bununla birlikte, sizin durumunuzda aşırı kurtosisin de aşırı olduğunu iddia ediyorum. Aşırı kurtozun en az eğriltme ^ 2 - 2 kadar yüksek olacağını aklınızda bulundurun (Aşırı kurtozun 4. standardize edilmiş moment eksi 3'e eşit olmasına izin verin, böylece aşırı kurtoz = normal dağılım için 0 olmalıdır.) Ayrıca, Han ve Rayner'ın ( 2003) 3 gruplu ANOVA'ları inceledi, ancak sonuçlarının iki örneklemli bir t-testine genellenmesi muhtemel.

İkinci bir ilgili çalışma ( Beasley, Erikson ve Allison, 2009) Chi-square (1) ve Weibull (1, 5) gibi normal olmayan dağılımlara sahip Tip I ve Tip II hatalarını inceledi. En az 25 numune büyüklüğü için t testi, Tip I hata oranını nominal alfa seviyesinin altında veya altında bir seviyede kontrol etti. Bununla birlikte, güç Kruskal-Wallis testi veya t-testinden önce uygulanan Sıra tabanlı Ters Normal dönüşüm (Blom skorları) ile en yüksek seviyedeydi. Beasley ve meslektaşları genellikle normalleştirme yaklaşımına karşı savundu, ancak normalleştirme yaklaşımının n> = 25 için Tip I hata oranını kontrol ettiği ve gücünün bazen Kruskal-Wallis testininkinden biraz aştığı belirtilmelidir. Yani normalleştirme yaklaşımı durumunuz için umut verici görünüyor. Ayrıntılar için makalelerinde tablo 1 ve 4'e bakınız.

Referanslar:

Khan, A. ve Rayner, GD (2003) . Çok örneklemli lokasyon problemi için normal testlerin normal olmamalarına karşı sağlamlık. Uygulamalı Matematik ve Karar Bilimleri Dergisi, 7 , 187-206.

Beasley, TM, Erickson, S. ve Allison, DB (2009) . Rütbe bazlı ters normal dönüşümler giderek daha fazla kullanılmaktadır, ancak bunlar haklı mıdır? Davranış Genetiği, 39 , 580-595.


(aşırı) kurtosiseğri2-2

Bu kendi ipliğine layık bir soru gibi görünüyor. Belki de endişeniz, aşırı kurtozun küçük örneklerde aşağıya doğru eğilimli olacağıdır. Tabii ki, yukarıdaki simülasyon çalışmalarında da durum söz konusuydu ve kurtoz hala bu durumlarda t-testinde düşük güce neden oldu. Sorunuz çoğu Monte Carlo çalışmasının daha genel bir sınırlamasına işaret ediyor: sonuçlar genellikle popülasyon özelliklerine, uygulamalı araştırmacının gözlemleyemediği özelliklere dayanıyor. Örnek eğriliği, kurtosis vb. İle ilgili göreceli gücü tahmin edebilmek daha faydalı olacaktır.
Anthony

Bu konuda ayrı bir soru gönderdim: stats.stackexchange.com/questions/133247/…
Anthony

0

Öncelikle, iki örneğin dağılımının farklı olduğunu varsayarsanız, Welch'in gruplar arasında eşit olmayan farklılıklar gösteren t-test sürümünü kullandığınızdan emin olun. Bu, en azından dağıtım nedeniyle ortaya çıkan bazı farklılıkları hesaba katmaya çalışacaktır.

Welch'in t testi için formüle bakarsak:

t=X¯1-X¯2sX¯1-X¯2

sX¯1-X¯2

sX¯1-X¯2=s12n1+s22n2

biz orada her şey olduğunu görebilirsiniz s biz değişme göz önüne alındığında ediliyor biliyorum. İki varyansın aslında aynı olduğunu, ancak birinin sapmış olduğunu ve farklı bir sapma tahminine yol açacağını hayal edelim. Varyansın bu tahmini, aslında eğriltme nedeniyle verilerinizi temsil etmiyorsa, gerçekte önyargılı etki, esasen bu önyargının karekökü olacak ve bunu hesaplamak için kullanılan veri noktalarının sayısına bölünecektir. Bu nedenle, kötü varyans tahmin edicilerin etkisi, karekök ve daha yüksek bir n tarafından biraz kısılır ve muhtemelen konsensüsün sağlam bir test olarak kalması nedeni budur.

Eğriltilmiş dağılımların diğer bir sorunu da ortalama hesaplamanın da etkileneceği ve muhtemelen test varsayımı ihlallerinin asıl sorunlarının, araçların eğrilmeye karşı nispeten duyarlı olduğu durumdur. Testin sağlamlığı, ortalamalar arasındaki farkı (bir fikir olarak) kıyasla, ortalamalar arasındaki farkı hesaplayarak kabaca belirlenebilir. Belki de t-testindeki medyanların farkı ile ortalamaları arasındaki farkı daha sağlam bir önlem olarak değiştirmeyi deneyebilirsiniz (Birisinin bunu tartıştığına eminim ama google'da bağlanabilecek kadar hızlı bir şey bulamadım).

Yapmanız gereken tek şey bir t-testi ise, permütasyon testi yapmayı da öneririm. Permütasyon testi, dağıtım varsayımlarından bağımsız olarak kesin bir testtir. En önemlisi, parametrik testin varsayımları karşılanırsa permütasyon testleri ve t-testi aynı sonuçlara yol açacaktır . Bu nedenle, aradığınız sağlamlık ölçüsü 1 olabilir - permütasyon ve t testi p değerleri arasındaki fark, 1 puanının mükemmel sağlamlık, 0 ise hiç sağlam olmadığını ima eder.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.