ANOVA, ikili testlerin hiçbiri olmadığında önemli olabilir mi?


29

Tek yönlü ( gruplu veya "seviye" ile) ANOVA'nın çiftli t-testi hiçbiri yapmadığında önemli bir fark bildirmesi mümkün müdür ?N>2N(N1)/2

In Bu cevap @whuber yazdı:

Küresel bir ANOVA F testinin, herhangi bir araç çiftinin bireysel olarak ayarlanmamış [tekil ayarlanmamış] t-testinin önemli bir sonuç vermeyeceği durumlarda bile, bir araç farkını tespit edebileceği iyi bilinmektedir.

görünüşe göre mümkün, ama nasıl olduğunu anlamıyorum. Ne zaman oldu ve böyle bir dava arkasındaki sezgi ne olurdu? Belki birileri böyle bir durumun basit bir oyuncak örneğini sağlayabilir?

Bazı açıklamalar:

  1. Bunun tersi açıkça mümkündür: Genel olarak ANOVA önemsiz olabilir; çiftli t-testlerinin bazıları hatalı olarak önemli farklılıklar rapor eder (yani bunlar yanlış pozitif olur).

  2. Benim sorum standart, çoklu karşılaştırmalar t-testleri için düzeltilmemiş. Düzeltilmiş testler kullanılırsa (örneğin, Tukey'nin HSD prosedürü gibi), o zaman, genel ANOVA olsa bile, bunların hiçbirinin önemli olmadığı anlaşılabilir. Bu, burada birkaç soruda ele alınmaktadır; örneğin , TUKEY'in prosedürüyle ilgili önemli bir genel ANOVA'yı nasıl elde edebilirim , ancak ikili olarak önemli bir fark yoktur? ve Önemli ANOVA etkileşimi, ancak anlamlı olmayan ikili karşılaştırmalar .

  3. Güncelleştirme. Benim sorum başlangıçta normal iki örnek çift ​​t-testi ile ilgili. Bununla birlikte, @whuber yorumlarda da belirtildiği gibi, ANOVA bağlamında, t-testleri genellikle tüm gruplar arasında toplanan, grup içi varyansın ANOVA tahmini kullanılarak, tüm gruplar arasında bir araya getirilen post- zıtlıklar olarak anlaşılır (bu, ikisi arasında gerçekleşmez. -örnek t-testi). Yani aslında sorumun iki farklı versiyonu var ve ikisinin de yanıtı olumlu çıktı. Aşağıya bakınız.


3
Sorunuz birçok konuda ele alınmıştır: sitemizde önemli gerileme ile arama yapmayı deneyin . (ANOVA en küçük kareler regresyonunun bir uygulamasıdır.) Örneğin istatistik.stackexchange.com/questions/14500/… açık bir örnek ve bazı sezgiler sunar. Lütfen bunları araştırın ve mümkünse sorunuzu daha önceki konulardan ayırmak için düzenleyin.
whuber

Teşekkürler, bunu daha önce görmedim. Ancak, çoklu regresyonla ilgili bu açıklamaları ANOVA karşılaştırma diline çevirmekte gerçekten zorlanıyorum. Bu elbette benim kendi sorunum, ama yalnız olmadığımı tahmin ediyorum, bu yüzden belki de sorumun cevabı toplum için faydalı olabilir. İşte benim kafam karıştı: Birisi sol / sağ ayakkabı boyutlarına gerileme ağırlığı örneği verdi (iki kuvvetle ilişkili IV) => F anlamlı, değil. Çok iyi. Şimdi 3 gruplu ANOVA regresyonunda 2 kukla IV var; Onlar kukla => her zaman mükemmel bir şekilde antrecorlate edilir ... Ve ne olmuş yani?
amip diyor Reinstate Monica

Korkarım bu son sözü takip etmiyorum. İlk olarak, konunun mutlaka tasarım matrisindeki güçlü korelasyonla ilgisi yoktur. İkincisi, mankenleri vardır değil "mükemmel anticorrelated": onlar olsaydı, yazılım zaten bunlardan birini düşmesi gerekir. Belki daha karmaşık ANOVA modellerinde daha hassas konulara değiniyor olabilirsiniz .
whuber

@ amoeba: Sizin kukla değişkenlerinizin negatif korelasyonu var.
Michael M

3
Hayır, "daha fazla dikkat" için bir istisna yapıyorum. 1. Sadece yüksek derecede önemli ikili karşılaştırmalar yaptığınız ve önemsiz bir F'nin bu önemli sonuçların yanlış pozitif olduğu anlamına gelmediği anlamına gelir. Bir şeylerin yanlış bir pozitif olduğunu kesin olarak bilmek için, fiili araçlarda, mu'larda hiçbir fark olmadığını bilmek zorundasınız. F istatistiği kutsal değildir. Aslında, zorunlu bile değil. Model seçimi için en kullanışlıdır, ancak bunun ötesinde verilerinizde özellikle neler olduğu konusunda pek bilgi vermez.
rvl

Yanıtlar:


18

Not: Orijinal örneğimde bir sorun vardı. Aptalca R'in sessiz argüman geri dönüşümü ile yakalandım. Yeni örneğim eskime çok benziyor. Umarım her şey şu anda doğru.

İşte size ANOVA’yı% 5 düzeyinde anlamlı yapan bir örnek yaptım, ancak 6 ikili karşılaştırmaların hiçbiri,% 5 düzeyinde bile önemli değil .

İşte veriler:

g1:  10.71871  10.42931   9.46897   9.87644
g2:  10.64672   9.71863  10.04724  10.32505  10.22259  10.18082  10.76919  10.65447 
g3:  10.90556  10.94722  10.78947  10.96914  10.37724  10.81035  10.79333   9.94447 
g4:  10.81105  10.58746  10.96241  10.59571

görüntü tanımını buraya girin

İşte ANOVA:

             Df Sum Sq Mean Sq F value Pr(>F)  
as.factor(g)  3  1.341  0.4469   3.191 0.0458 *
Residuals    20  2.800  0.1400        

İşte iki örnek t testi p değeri (eşit varyans varsayımı):

        g2     g3     g4
 g1   0.4680 0.0543 0.0809 
 g2          0.0550 0.0543 
 g3                 0.8108

Grup araçları veya bireysel puanlarla biraz daha fazla uğraşmakla, anlamlılık farkı daha çarpıcı hale getirilebilir (ilk p değerini daha küçük ve en düşük altı p değer kümesinin en düşük değerini, t testi için daha yüksek yapabilirim) ).

-

Düzenleme: İşte başlangıçta bir eğilim hakkında gürültü ile oluşturulan ve bu noktaları biraz hareket ettirirseniz ne kadar iyi yapabileceğinizi gösteren ek bir örnek:

g1:  7.27374 10.31746 10.54047  9.76779
g2: 10.33672 11.33857 10.53057 11.13335 10.42108  9.97780 10.45676 10.16201
g3: 10.13160 10.79660  9.64026 10.74844 10.51241 11.08612 10.58339 10.86740
g4: 10.88055 13.47504 11.87896 10.11403

F% 3'ün altında bir p değerine sahiptir ve t'lerin hiçbiri% 8'in altında bir p değerine sahip değildir. (3 grup örneği için - ancak F üzerinde biraz daha büyük bir p değeri varsa - ikinci grubu atlayın)

Ve işte size çok basit, eğer daha yapaysa, 3 gruba sahip bir örnek:

g1: 1.0  2.1
g2: 2.15 2.3 3.0 3.7 3.85
g3: 3.9  5.0

(Bu durumda, en büyük varyans orta gruptadır - ancak daha büyük örneklem büyüklüğü nedeniyle, grup ortalamasının standart hatası hala daha küçüktür)


Çoklu karşılaştırmalar t-testleri

whuber çoklu karşılaştırma vakasını düşünmemi önerdi. Oldukça ilginç olduğunu kanıtladı.

Çoklu karşılaştırmalar için durum (tümü orijinal önem düzeyinde gerçekleştirilir - yani çoklu karşılaştırmalar için alfa ayarlaması olmadan), farklı gruplarda daha büyük ve daha küçük varyanslarla veya daha az ve daha fazla df ile oynamaya yardımcı olmadığından, elde edilmesi biraz daha zordur. sıradan iki örneklem t-testlerinde yaptıkları gibi.

Bununla birlikte, grup sayısını ve anlamlılık seviyesini değiştirme araçlarına hala sahibiz; daha fazla grup ve daha küçük anlamlılık seviyeleri seçersek, vakaları tanımlamak yine nispeten kolaylaşır. Işte bir tane:

ni=2α=0.0025

> summary(aov(values~ind,gs2))
            Df Sum Sq Mean Sq F value  Pr(>F)   
ind          7      9   1.286   10.29 0.00191 
Residuals    8      1   0.125                   

Ancak ikili karşılaştırmalardaki en küçük p değeri o seviye için önemli değildir:

> with(gs2,pairwise.t.test(values,ind,p.adjust.method="none"))

        Pairwise comparisons using t tests with pooled SD 

data:  values and ind 

   g1     g2     g3     g4     g5     g6     g7    
g2 1.0000 -      -      -      -      -      -     
g3 1.0000 1.0000 -      -      -      -      -     
g4 1.0000 1.0000 1.0000 -      -      -      -     
g5 0.0028 0.0028 0.0028 0.0028 -      -      -     
g6 0.0028 0.0028 0.0028 0.0028 1.0000 -      -     
g7 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 -     
g8 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 1.0000

P value adjustment method: none 

2
İki örneklemli t testi, regresyondaki çiftli testlerle aynı şey değildir. Bu farklılık, artık varyansın tahmininde yatmaktadır. Bu nedenle, örnekleriniz gerçekten daha güçlü paradokslara örnek değildir; bu, bir ve aynı regresyon analizinde F-testinin anlamlı olabileceği ve çift yönlü karşılaştırmalarının hiçbirinin anlamlı olmadığı anlamına gelir. Ben de bu paradoksun mutlaka heterosistemiklikten kaynaklanmadığına inanıyorum: tüm grup farklılıkları eşit olduğunda bile görülebilir.
whuber

4
Daha da ilginç olanı, F-testinin boş değeri reddetmesi mümkün olduğunda ele almak olabilir , ancak ikili olarak yapılan t-testlerinin hiçbiri, aynı anlamlılık düzeyinde (F-testi ile aynı hata sapma tahminini kullanarak) reddetmesi mümkün olabilir. Örn: eşit örneklem büyüklüğüne sahip 3 grup için çiftli t-testleri için% 5'lik reddetme bölgesi birliği, örneklem büyüklüğü çok büyük olduğunda bile ANOVAR F-testi için% 5'lik reddetme bölgesini içerir.
Scortchi - Eski Monica

4
@Scortchi: (+1) yorumunuz için. Yıllar önce, test seviyesi çok küçük olmadığı sürece, üç grup vakada bunun gerçekten imkansız olduğunu anladığımı hatırlıyorum.0.005, hatırlarsam). Kümülatif oranla ilişkilere gelirF- Farklı derecelerde serbestlik derecelerine sahip dağılımlar, sabit seviyede değerlendirilmiş ve sabit dereceli serbestlik dereceleri.
kardinal

4
Amip, karışıklık, "çift t-testi" nin iki anlama gelebileceği gerçeğinden kaynaklanmaktadır. ANOVA bağlamında, genellikle ANOVA tahminlerini kullanarak post hoc kontrastların kullanıldığı anlaşılır . Diğerlerinin de belirttiği gibi, bu, normal gruplar üzerinde ikili gruplar üzerinde yapılan testlerle aynı değildir, çünkü ANOVA versiyonu tüm gruplardan elde edilen grup içi varyansın bir tahmine dayanmaktadır .
whuber

2
Bence iyi bir özet yaptın. Paradoksaya, "bütün testlerin tek bir ANOVA analizi çerçevesinde yapıldığında, içten tutarlı olmalarını bekleyecekleri" anlamında "daha güçlü" olarak bahsettim. (İçsel olarak ilişkili olmayan iki grup test yaptığınızda, birbiriyle çelişen sonuçlar vermeleri çok da sürpriz olmamalıdır: bu sık sık olur.) Bu grubu sonuçlandırmanın mantıksal olarak tutarlı ve istatistiksel olarak geçerli olduğunu kabul etmek zorundayız. araçlar, belirli bir grup çifti arasında fark bulamazken, önemli ölçüde farklılık gösterir.
whuber

4

Özet: Bunun mümkün, ama çok, çok düşük bir ihtimal olduğuna inanıyorum. Fark küçük olacak ve eğer gerçekleşirse, bunun nedeni bir varsayımın ihlal edilmiş olmasıdır (örneğin varyansın eşitliğini).

İşte böyle bir olasılık arayan bazı kodlar. Tohumun her çalıştırılışında 1 oranında arttığını, tohumun depolandığını (ve tohumların aranmasının sistematik olduğunu) unutmayın.

stopNow <- FALSE
counter <- 0
while(stopNow == FALSE) {
  counter <- counter + 1
  print(counter)
  set.seed(counter)
  x <- rep(c(0:5), 100)
  y <- rnorm(600) + x * 0.01
  df  <-as.data.frame( cbind(x, y))
  df$x <- as.factor(df$x)
  fit <- (lm(y ~ x, data=df))
  anovaP <- anova(fit)$"Pr(>F)"[[1]]
       minTtestP <- 1
      for(loop1 in c(0:5)){
        for(loop2 in c(0:5)) {
          newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y)$p.value
      minTtestP <- min(minTtestP, newTtestP )    
      }
   }

  if(minTtestP > 0.05 & anovaP < 0.05) stopNow <- TRUE 
  cat("\nminTtestP = ", minTtestP )
  cat("\nanovaP = ", anovaP )
  cat("\nCounter = ", counter, "\n\n" )
}

Önemli bir R2 ve önemli bir t testi yok, 18.000 tohumluk bir tohum bulamadım. R2'den t testlerinden daha düşük bir p değeri ararken, tohum = 323'te bir sonuç elde ediyorum, ancak fark çok, çok küçük. Parametrelerin ayarlanması (grup sayısının arttırılması?) Yardımcı olabilir. R2 p değerinin daha küçük olmasının nedeni, regresyondaki parametreler için standart hata hesaplandığında tüm grupların birleştirilmesidir, bu nedenle farkın standart hatasının t testindeki potansiyel hatadan daha küçük olmasıdır.

Heterosistemikliği ihlal etmenin (olduğu gibi) yardımcı olup olmadığını merak ettim. Öyle. Kullanırsam

y <- (rnorm(600) + x * 0.01) * x * 5

Y'yi üretmek için, tohum = 1889'da uygun bir sonuç buluyorum, burada t-testlerinden elde edilen minimum p değeri 0.061 ve R-kare ile ilişkili p değeri 0.046'dır.

Grup büyüklüğünü değiştirirsem (bu, heteroseksensellik ihlalinin etkisini artırır), x örneklemesini değiştirerek:

x <- sample(c(0:5), 100, replace=TRUE)

Tohumda = 531, minimum t-testi p-değeri 0.063'te ve p-değeri 0.046'da anlamlı bir sonuç elde ettim.

T testindeki heterossedastisite düzeltmeyi durdurursam, şunları kullanarak:

newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y, var.equal = TRUE)$p.value

Sonuç olarak, bunun gerçekleşmesi pek olası değildir ve regresyondaki eşcinsellik varsayımını ihlal etmediyseniz, farkın çok küçük olacağı yönündedir. Analizinizi, dayanıklı / sandviç / düzeltme ile yapmak istediğiniz şekilde çalıştırmayı deneyin.


"T-testindeki heteroseksensellik için düzeltmeyi bırakırsam" ile başlayan bitmemiş bir cümleye sahip gibi görünüyorsunuz. Bunun dışında çok teşekkürler! Lütfen soru güncellememe bakın. Ayrıca @ whuber'in burada ilk yorumunu not edin; Eğer doğru anlarsam, böyle bir durumun kolayca (?) olabileceği konusunda ısrar ediyor (ve bunu “iyi bilinen” olarak adlandırıyor). Belki burada bazı yanlış anlaşılma var, ama nedir?
amip diyor Reinstate Monica

Bence @whuber, modeldeki önemsiz parametrelerden, önemsiz olmayan t-testlerinden bahsediyor.
Jeremy Miles,

Hayır, o değil. Eğer biliniyorsa, bilmiyorum ve bir örnek bulmaya çalıştım ve yapamam.
Jeremy Miles,

1
O zaman, @ Glen_b'in basit bir örnek ürettiğine sevindim. Sezgi, genel testin, gruptaki yayılmanın tek başına artık varyansla makul bir şekilde açıklanamayacağına dair kanıt olup olmadığını değerlendirdiği şeklindedir. Bir seferde sadece iki araç içeren ikili testler, aynı kanıtları değerlendirmede oldukça muhafazakar olmalıdır. Bu nedenle, iki uç grup grubunun karşılaştırılması bile, tüm araçların toplam dağılımı önemli olduğunda, önemli bir farkı ortaya çıkarmakta başarısız olabilir . Bu bazen pratikte, özellikle çok sayıda grupla ortaya çıkar.
whuber

3
BTW, bu "iyi bilinen" olarak adlandırılmasının sebebi, Systat yazılım kılavuzunda bunun hakkında uyarıldığımı hatırlamamdan kaynaklanıyor c. 1989. Çok öğretici bir el kitabıydı (çoğu geliştirici Leland Wilkinson , kişisel olarak yazılmış ) ve muhtemelen hala öyle. Bu kılavuz çevrimiçi, ancak indirebilmek için Systat sitesine kaydolmanız gerekiyor.
whuber

2

Tamamen mümkün:

  • Bir veya daha fazla çift t-testi belirgindir ancak genel F testi değildir.
  • Genel F testi önemlidir, ancak ikili testin hiçbiri anlamlı değildir

Genel F testi tüm kontrastları aynı anda test eder . Bu nedenle, bireysel kontrastlara karşı daha az hassas (daha az istatistiksel güç) olması gerekir (örneğin: ikili test). İki test yakından birbiriyle ilişkili ancak edilir değil aynı şeyi raporlanması.

Gördüğünüz gibi, genel F testi önemli olmadığı sürece ders kitabı planlı karşılaştırmalar yapmama önerisi her zaman doğru değildir. Aslında, öneri, önemli farklar bulmamızı engelleyebilir, çünkü genel F testi, belirli farkları test etmek için planlanan karşılaştırmalardan daha az güce sahiptir.


Cevabınızın mantığını takip ettiğimden emin değilim. H0'nin bir F testi ile reddedilmesinin, en az bir sıfır olmayan kontrast olduğu anlamına geldiğini mi söylüyorsunuz, ancak bu kontrast ikili karşılaştırmaların hiçbirine karşılık gelmeyebilir mi? Eğer öyleyse, bu bir F testi H0'ı reddederse, o zaman olası tüm kontrastlarda yapılan ikili testlerden en az birinin reddedilmesine neden olacağı anlamına mı geliyor?
amip diyor Reinstate Monica

@ amoeba Cevabımı düzenledim.
SmallChess
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.