ANOVA'nın testinden alınan değerleri , aynı verilerdeki birden fazla testinden alınan değerlere kıyasla ne kadar küçük olabilir ?


13

Giriş: Bugün bu sorunun dikkatini çeken “ ANOVA, ikili t-testlerinin hiçbiri olmadığında önemli olabilir mi? ”, Diye düşündüm. .

İstatistiksel anlamlılık basit bir ikilik olarak anlaşıldığında ve sadece veya bazında değerlendirildiğinde çeşitli uyumsuz sonuçlar ortaya çıkabilir (yüz değerinde) . @ Glen_b'in yukarıdaki soruya vereceği cevap, aşağıdaki durumlarda yararlı bir örnek sunmaktadır:pα

  • Bir ANOVA testi, dört seviyeli bir bağımsız değişken (IV) için üretir , ancakFpF<.05
  • pt>.08IV'ün dört seviyesinin her bir çiftine karşılık gelen gözlemler arasında aynı bağımlı değişkente (DV) farklılıkları karşılaştıran tüm iki örnekli testleri için .t

Benzer bir vaka, bu soru yoluyla hoc sonrası ikili karşılaştırmalar için Bonferroni düzeltmelerine rağmen ortaya çıktı: Anova tekrarlanan ölçümler önemlidir, ancak Bonferroni düzeltmesi ile yapılan tüm çoklu karşılaştırmalar önemli değil mi? Daha önce bahsedilen çoklu regresyonda biraz farklı bir teste sahip vakalar da vardır:

Bu gibi durumlarda, karşılık gelen bir omnibus testi bir elde edebiliyorsa , bazı (ama hepsi değil) çift karşılaştırmalar '(veya regresyon katsayıları' önem testleri ') değerlerinin yakın olması gerektiğine bahse girerim . @ Glen_b'in ilk örneğinde durum böyle görüyorum, burada , ve en büyük çift farkı en küçük . Genel olarak böyle mi olmalı? Daha spesifik olarak :pαp<αF(3,20)=3.19pF=.046pt=.054


Soru: Bir ANOVA testi, bir IV'ün sürekli bir DV üzerindeki etkisi için bir üretirse , en düşük değeri , IV düzeylerinin her bir çiftini karşılaştıran iki örnekli testi arasında ne kadar yüksek olabilir ? Minimum ikili önem kadar yüksek olabilir mi?FpF=.05ptpt=.50


Sadece bu soruya cevap veren cevapları memnuniyetle karşılıyoruz . Bununla birlikte, bu soruyu daha fazla motive etmek için, potansiyel retorik bazı soruları ayrıntılı olarak açıklayacağım. Bu endişeleri de ele almaktan hoşlanıyorsanız ve hatta özellikle belirli bir soru kesin bir cevap alırsa, belirli bir soruyu görmezden gelmekten çekinmeyin.

Önem: İstatistiksel önem, sıfır hipotezine karşı kanıtın gücü açısından sürekli olarak değerlendirilirse, ve arasındaki farkın ne kadar az önemli olacağını düşünün (Ron Fisher yaklaşımı, sanırım?), null toptan satışın reddedilip reddedilmeyeceğini seçme konusunda kabul edilebilir hata olasılığı için bir eşiğinin üstünde veya altında olduğu gibi ikiye ayrılır . " hackleme ", kötü şöhretini kısmen yorumlanmasıyla ortaya çıkan gereksiz bir güvenlik açığına borçlu olduğu bilinen bir sorundur.pF=.04pt=.06α=.05pp"yeterince iyi" ve "yeterince iyi değil" eşdeğerlerine karşı ikiye ayrılma yaygın uygulamasına göre değerler. Eğer kişi bu uygulamayı elden çıkaracak ve bunun yerine değerlerini sürekli bir aralıkta null'a karşı kanıt gücü olarak yorumlamaya odaklanacaksa , çok çiftli karşılaştırmaları gerçekten önemsediğinde omnibus testi biraz daha az önemli olabilir mi? Değil gereksiz zorunlu İstatistiksel doğruluğu herhangi bir makul etkin bir düzelme, örneğin, düşük çiftler halinde bir karşılaştırması en eğer ... Tabii ki tercih edilir, ancak değeri olan zorunlu olan ANOVA (veya başka bir çok maddeli testi)pp.10pdeğer, bu omnibus testini, özellikle birden fazla testte kontrol etmek istemiyorsa, daha önemsiz, daha az zorunlu ve daha da yanıltıcı (önceden var olan yanlış anlamalar ile birlikte) yapmaz mı?α

Tersine, eğer bir omnibus , ancak tüm çift veriler mevcutsa , bu uygulama ve pedagoji boyunca omnibus ve kontrast testini daha da motive etmemelidir ? Bana öyle geliyor ki, bu konu, bir ikilik ve sürekliliğe göre istatistiksel önemi değerlendirmenin göreceli değerlerini, farklılıklar "marjinal olarak önemli" olduğunda küçük ayarlara karşı daha duyarlı olması gerektiğinden, her iki sistemde de bu fark / ayarlama çok büyükse (örn., bir omnibus testi yapılmaması veya çoklu karşılaştırmalar için ayarlama yapılmaması durumunda güvenlidir .p=.05p>.50ptpF>.40)

Göz önünde bulundurulması veya görmezden gelmesi gereken diğer isteğe bağlı karmaşıklıklar — yanıtlamayı daha kolay ve daha değerli kılan :


1
İkili t-testlerinin omnibus F-testi ile aynı hata varyans tahminini kullanması gerekip gerekmediğini açıklığa kavuşturmak isteyebilirsiniz (Glen örneğinde kullanmayanlar).
Scortchi - Monica'yı eski durumuna döndürün

1
kullanan ortalamalar arasındaki fark için sıradan bir t testi demek , ancak ANOVAR ortalama kare hatasının kare kökü olarak hesaplanır. Her zamanki post-hoc ikili t-testidir ve Tukey'in HSD'sinden farklı olarak çoklu karşılaştırmalar için ayarlama yapmaz . Tüm gruplardan gelen bilgileri içerir, ancak grup araçlarındaki farklılıklardan bağımsızdır. σt=(y¯1y¯2)/(σ^1n1+1n2)σ^
Scortchi - Monica'yı eski durumuna döndürün

1
Anlıyorum! Öncelikle @ Glen_b'in örneğini takip etmek ve kullanmakla değil, tüm gruplardan bilgi eklemekten kaçınmak için bahsettiğiniz ilk formülü kullanmakla ilgilenirim. Bu, burada güçlü bir tercihimin olduğu anlamına gelmez ... ama asıl amacımın bir kısmı, bu sorulardaki ortak temanın bir varyantını sunmaktı: "Herhangi bir belirli bilgi için söz konusu iki grubun ötesinde bilgileri görmezden gelmenin gerçek zararı nedir? birçoğu arasında iki örnek testi? " Sanırım bu kararda da bu tema aktarılmaya değer. MSE
Nick Stauner

1
@Scortchi Diğer soruya ilk yorumunuzu kapsayan bir örnek ekledim (yani, testlerin ortak hata varyansı ve df kullanılarak yapıldığı yer), ancak tüm testler (F ve çoklu karşılaştırmalar) oldukça düşük bir önem düzeyinde yapılır. (0.0025, 0.05 değil). Burada Nick S. tarafından sorulan tek tek sıradan iki örnekli t-testleri ile karşılaştırıldığında, anlam bakımından önemli ölçüde önemli bir farkın mümkün olduğunu gösterir (bu durumda, tüm sıradan t testleri için , ancak ). Birçok gruba inanıyorum, daha da ileri gitmek mümkün. p F < 0.002pt>.05pF<0.002
Glen_b

1
Birkaç dakika önce stat.stackexchange.com/questions/83030/… adresindeki bir yorumda bu sorunun ilk bölümüne bir cevap verdim .
whuber

Yanıtlar:


8

Eşit varsayarak kullanıcının [ancak aşağıda not 2'ye bakınız] tek yönlü bir düzende, her işlem için ve tüm gruplardan havuzlanmış SD kullanılmasını (alışılmış post hoc mukayeseleri yapıldığı gibi), maksimum muhtemel testlerin testi için değeri (burada belirtir ). Bu nedenle, hiçbir kadar yüksek olamaz . İlginçtir (ve oldukça tuhaf bir şekilde), sınırı sadece için değil , için gereken herhangi bir anlam seviyesi için de geçerlidir .t p t 2 Φ ( - ntptΦN(0,1)pt0.5.1573pF=.05F2Φ(2).1573ΦN(0,1)pt0.5.1573pF=.05F

Gerekçe şu şekildedir: Belirli bir örnek araç aralığı için , nin yarısı bir uçta ve diğer yarısı olduğunda mümkün olan en büyük istatistiğine ulaşılır . Bu , iki aracın en fazla farklı olduğu göz önüne alındığında en anlamlı göründüğü durumu temsil eder .maxi,j|y¯iy¯j|=2aFy¯iF2a

Yani, genelliği kaybetmeden varsayalım , böylece bu sınır durumda. Ve yine, genellik kaybı olmadan, olduğunu varsayalım , çünkü verileri her zaman bu değere yeniden ölçeklendirebiliriz. Şimdi anlamına gelir ( basitlik için bile olsa [ama aşağıdaki not 1'e bakınız]), . Ayar böylece , elde ederiz . Tüm zaman olan (hala ve ), her biri sıfır olmayan biry¯.=0y¯i=±aMSE=1kkF=ny¯2/(k1)MSE=kna2k1pF=αF=Fα=Fα,k1,k(n1)a=(k1)Fαkny¯i±aMSE=1t istatistiği bu nedenle . Bu, olduğunda mümkün olan en küçük maksimum değeridir .t=2a12/n=2(k1)FαktF=Fα

Böylece farklı ve vakalarını, hesaplamasını ve onunla ilişkili . Ancak verilen için bildirimi o , olduğu azalan [ancak aşağıda not: 3]; ayrıca, , ; böylece . Not bu yer alır, ortalama ve SD . Yani bakılmaksızınkntptkFαnn(k1)Fα,k1,k(n1)χα,k12ttmin=2χα,k12/kχ2/k=k1kχ2/(k1)k1kk1k2k1limktmin=2α ve yukarıdaki ilk paragrafta belirttiğim sonuç asimtotik normallikten elde edilir.

Yine de bu sınıra ulaşmak uzun zaman alıyor. kullanarak, Rçeşitli değerleri için sonuçlar (kullanılarak hesaplanır ) :kα=.05

k       t_min    max p_t   [ Really I mean min(max|t|) and max(min p_t)) ]
2       1.960     .0500
4       1.977     .0481   <--  note < .05 !
10      1.840     .0658
100     1.570     .1164
1000    1.465     .1428
10000   1.431     .1526

Birkaç gevşek uç ...

  1. K tek olduğunda: hepsi olduğunda maksimum istatistiği hala oluşur ; ancak, aralığın bir ucunda diğerine göre bir tane daha olacak ve ortalama yapıyoruz ve istatistiğindeki faktörünün ile değiştirildiğini gösterebilirsiniz . Bu aynı zamanda paydasının yerini alır , böylece biraz daha büyük olur ve .Fy¯i±a±a/kkFk1ktpt
  2. Eşit olmayan s:n maksimum hala ile elde edilir işaretleri neredeyse eşit mümkün olduğu kadar numune boyutlarını dengelemek üzere düzenlenmiş olan,. Daha sonra aynı toplam örnek büyüklüğü için istatistiği , dengeli verilerle aynı veya daha küçük olacaktır. Dahası, maksimum istatistiği daha büyük olacaktır çünkü en büyük . Bu yüzden dengesiz vakalara bakarak daha büyük değerleri elde .Fy¯i=±aFN=nitnipt
  3. Hafif bir düzeltme: en üst düzeye çalıştığımız gerçeğini göz ardı ettiğim minimum bulmaya odaklandım ve daha az sahip daha büyük bir , küçük olandan daha az önemli olmayacak daha fazla df ile. Ancak, df çok az fark yaratacak kadar yüksek olana kadar değerlerini hesaplayarak durumun bu olduğunu doğruladım . Durum için Hiç davaları görmedim değerleri ile artmamıştır . Not bu olası df so büyük hızlı şekilde eldetpttn=2,3,4,α=.05,k3ptndf=k(n1)k,2k,3k,kbüyük. Yani hala yukarıdaki iddia ile güvenli bir zemindeyim. de test ettim ve eşiğinin aşıldığı yerde gözlemlediğim tek durum .α=.25.1573k=3,n=2
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.