Bir t testi yaparken neden her zaman df'nin Welch yaklaşımını kullanmak yerine eşit varyansları varsaymayı (veya test etmeyi) tercih etmelisiniz?

47

Bir homojenlik varyansı varsayımı varsayıldığında bir Welch düzeltmeli t-testi ve standart bir t-testi sonuçlarının yaklaşık olarak aynı olduğu görülüyor. Neden her zaman sadece Welch adj t ayarını kullanmıyorsunuz?

variance t-test heteroscedasticity

— russellpierce
kaynak

33

Kubinger, Rasch ve Moder (2009) tarafından yayınlanan bir bildiri üzerine (Almanca) diğer iki cevaba itiraz etmek istiyorum .

Dağıtımların "kapsamlı" simülasyonlarına dayanarak, t-testinin getirdiği varsayımları yerine getirip getirmediğini (varyansın normalliği ve homojenliği) varsayımlar yerine getirildiğinde (yani, temel olarak aynı) eşit derecede iyi performans gösterdiğini iddia ederler. alfa ve beta hataları yapma olasılığı) ancak varsayımlar yerine getirilmezse, özellikle güç açısından t testinden daha iyi performans gösterir. Bu nedenle, örnek büyüklüğü 30'u geçerse, her zaman kaynak testini kullanmanızı önerirler.

Meta-yorum olarak: İstatistiklere ilgi duyan insanlar için (burada benim ve muhtemelen en çok diğerleri gibi) verilere dayalı bir tartışma (benimki olarak), en azından sadece teorik gerekçelere dayanan (burada diğerleri) olduğu kadar eşit olarak sayılmalıdır.

Güncelleme:
Bu konuyu tekrar düşündükten sonra, yenisinin benim açımdan desteklediği iki öneri daha buldum. Bu önerilere yol açan tartışmalar için orijinal makalelere (her ikisi de, en azından benim için serbestçe ulaşılabilir) bakın.

İlk öneri 2006'daki Graeme D. Ruxton'dan geliyor: “ İlişkisiz veri örneklerine dayanarak 2 popülasyonun merkezi eğilimini karşılaştırmak istiyorsanız, eşitsiz varyans t testi her zaman Öğrenci t-testi tercihinde kullanılmalıdır. veya Mann-Whitney U testi. "
In:
Ruxton, GD, 2006. Eşitsiz varyans t testi, Student t-testi ve Mann-Whitney U testi için kullanılmayan bir alternatiftir . Behav. Ecol . 17, 688-690.

İkinci (daha eski) öneri, Coombs ve ark. (1996, sayfa 148). " Özetle, bağımsız t testi eşit kitle varyansı varsayımı ihlal bile, yeterince büyük bir eşit büyüklükte örnekleri vardır Tip hata oranlarını kontrol etmek açısından genellikle kabul edilebilir değildir. Eşit olmayan için Bununla birlikte, eşit büyüklükteki varyansları kabul etmeyen bir alternatif tercih edilir.Ağırlıklar kısa kuyruklu simetrik veya normal olduğunda James ikinci dereceden testini kullanın. Tip I hata oranlarının Welch testinden veya James testinden daha geniş kontrolü ve veriler uzun kuyruklu olduğunda daha fazla güce sahip. ” (vurgu eklendi)
In:
Coombs WT, Algina J, Oltman D. 1996. Nüfus değişkenleri mutlaka eşit olmadığında tip I hata oranlarını kontrol etmek için seçilen tek değişkenli ve çok değişkenli omnibus hipotez testleri . Rev Educ Res 66: 137–79.

— Henrik
kaynak

3

Meta-cevap: İyi nokta. Ancak verileriniz benimki gibi davranmayabilir! :-)

— whuber

Henrik, cevabı şu şekilde düzenleyebilir miyim: (1) Öğrenci t-testi ve Welch'in t-testi (literatürün çoğunda bulduğum gibi) testleri arayarak terminolojiyi değiştirin; (2) tartışmada öneren başka bir makale içermektedir: rips-irsp.com/article/10.5334/irsp.82 ( Levene'nin homojenlik testine dayanan testleri seçtiğinizde meydana gelen önyargıyı vurgulamaktadır).

— Bruno

13

Tabii ki, her iki testten birisini çıkarabilir ve eşitsiz ve eşitsiz varyansları açıklayabilen bir Bayesian t-testi (Savage-Dickey oran testi) kullanmaya başlayabilir ve hepsinden iyisi, bu durumun lehine bir kanıt miktarının belirlenmesini sağlar. sıfır hipotezi (yani, artık eski "reddetme başarısızlığı" konuşması anlamına gelir)

Bu testin uygulanması çok basit (ve hızlı) ve Bayesian istatistiklerine yabancı olan okuyuculara açık bir şekilde bir R betiği ile birlikte nasıl kullanılacağını açıklayan bir makale var. Temelde sadece veri eklemek için komutları R konsoluna gönderebilirsiniz:

Wetzels, R., Raaijmakers, JGW, Jakab, E. ve Wagenmakers, E.-J. (2009). Boş Hipotezi İçin ve Buna Karşı Destek Nasıl Ölçülür: Bir Varsayılan Bayesian t-testinin Esnek bir WinBUGS Uygulaması.

Bunların yanı sıra örnek veriler içeren bir eğitim de var:

http://www.ruudwetzels.com/index.php?src=SDtest

Bunun sorulanın doğrudan bir cevabı olmadığını biliyorum, ama okuyucuların bu güzel alternatife sahip olmaktan zevk alabileceğini düşündüm.

şerefe

— Dave Kellen
kaynak

8

her zaman bu bayesyen adamlar ...

— Henrik

3

T-testine bir diğer Bayesian alternatifi Kruschke's BEST (Bayes tahmininin t testinin yerini aldığı) rutinidir. Burada daha fazla bilgi: indiana.edu/~kruschke/BEST . Çevrimiçi bir sürüm burada: sumsar.net/best_online .

— Rasmus Bååth

7

Çünkü kesin sonuçlar yaklaşımlara tercih edilir ve yaklaşımın kesin yöntemden farklı bir sonuca yol açabileceği garip kenar durumlarından kaçının.

Welch yöntemi, eski bir t testi yapmanın daha hızlı bir yolu değildir, aksi halde çok zor bir soruna izlenebilir bir yaklaşımdır: eşit olmayan varyanslar altında bir t testi nasıl yapılır. Eşit değişkenlik durumu iyi anlaşılmış, basit ve kesindir ve bu nedenle mümkün olduğunda daima kullanılmalıdır.

— Zengin
kaynak

6

Sanırım John Tukey ile daha fazla aynı fikirde olma eğilimindeyim - " Doğru soruya verilen yaklaşık cevabı, genellikle belirsiz olan yanlış sorunun cevabını, her zaman kesin olarak kesin bir cevap vermekten daha iyidir. "

— Glen_b

4

Eşit varyans (Öğrenci) t-testinin kendisi, popülasyon örnek varyansları eşit olmadığında sadece (kötü anlaşılmamış) bir yaklaşımdır . Bu nedenle, popülasyon varyanslarının eşit olduğu bilinmediği sürece, doğru örnekleme dağılımına (Welch-Satterthwaite) yaklaşık bir değer kullanmak, veri modeli için geçerli olmayan kusursuz bir dağılım kullanmaktan daha iyidir.

— whuber

4

Düşünebilmemin iki nedeni:

Numune boyutları eşitse, normal Öğrenci T'si heterossedastisiteye oldukça dayanıklıdır.
Eğer kuvvetle düşünüyorsanız önsel veri homoskedastik olduğunu, o zaman hiçbir şey kaybeder ve yerine Welch'in T. Studen'ts T kullanarak güç az miktarda elde edebilecekleri

Ben ki bir nedeni değil vermek Öğrenci T kesin ve Welch'in T olmadığıdır. IMHO, Öğrenci T'sinin kesinliği akademikdir, çünkü yalnızca normal dağılıma ilişkin veriler için kesindir ve gerçek veriler tam olarak normal dağılıma sahip değildir. Dağıtımın makul bir şekilde tüm gerçek sayıları destekleyebileceği yerlerde, istatistiki olarak insanların gerçekten ölçtüğü ve analiz ettiği tek bir miktar düşünemiyorum. Mesela, evrende sadece çok fazla atom var ve bazı miktarlar negatif olamaz. Bu nedenle, gerçek veriler üzerinde herhangi bir T testi kullandığınızda, yine de bir yaklaşımda bulunursunuz.

— dsimcha
kaynak

2

(1) altta yatan popülasyon varyansları oldukça farklı olduğunda yanlıştır. Aşırı bir durum olarak - bunun neden böyle olduğunu görmek için - bir popülasyonun hiçbir farkı olmadığı zaman ne olacağını düşünün. Öğrenci, aslında diğer popülasyondan elde edilen verileri sabit ile karşılaştırıyor olacaktı, fakat bunun iki kat daha fazla serbestliğe sahip olduğunu düşünüyor. Yaptığı hata sadece bir Z testi kullanmakla karşılaştırılabilir.

— whuber

Bu doğru @ whuber olsa da, sadece çok aşırı durumlar için. Sadece 1e6: 1 varyans farkına ve p ≈ .053 değerine bakıyordum. Bu olabilir, ancak yine de eşit N ile oldukça sağlam olduğunu savunuyorum

— John

n_{i}

$n_i$

@whuber, sadece yukarıdaki yorumunuzun teknik olarak doğru olmasına rağmen, Welch düzeltmesinin örnek olarak ortaya koyduğunuz problemin çözümü olmadığını ve alfa oranları açısından testin sağlamlığını gerçekten çok fazla eleştirmediğini öne sürüyorum. (Bu (1) genellikle ne anlama gelir). Önerdiğiniz gibi, (aşırı) eşitsiz varyans, başka sorunlarınız olduğunda, ancak bu gerçekten farklı bir konudur.

— John

3

Bazı varsayımlar kontrol edildiğinde daha karmaşık bir şeyin daha az karmaşık bir şeye indirgenmesi, daha basit olan yöntemi atmak için yeterli değildir.

4

Özellikle öğrencilerin endişelendiği yerlerde.

— Matt Parker

2

Burada tam tersi bir manzara izlerdim. Standart eşleştirilmemiş student t testi size neredeyse aynı sonuçları verdiğinde neden Welch testi ile uğraşmıyorsunuz? Bir süre önce bu konuyu çalıştım ve t testini parçalama ve Welch testini destekleme girişiminde bir dizi senaryo araştırdım. Bunu yapmak için diğerine göre bir grup için 5 kat daha büyük örneklem büyüklükleri kullandım. Bir grup için diğerine göre 25 kat daha fazla varyans araştırdım. Ve, gerçekten herhangi bir maddi fark yaratmadı. Eşleştirilmemiş t testi, Welch testiyle neredeyse aynı olan bir dizi p değeri üretti.

Çalışmalarımı aşağıdaki linkte görebilir ve özellikle 5 ve 6 numaralı slaytlara odaklanabilirsiniz.

http://www.slideshare.net/gaetanlion/unpaired-t-test-family

— sympa
kaynak

Üzgünüm, büyük örnek formül ve küçük örnek formül arasındaki fark nedir? Popülasyon varyansı için bir örnek tahmin kullanmak yerine büyük numunelerde popülasyon formülü kullanarak varyansları mı hesaplıyorsunuz?

— russellpierce

Eşleştirilmemiş student t testi iki formüle sahiptir. Büyük numune formülü, 30'dan fazla gözlemi olan örneklere uygulanır. Küçük numune formülü, 30 gözlemden az numunelere uygulanır. Bu formüllerdeki temel fark, birleştirilmiş standart hatayı nasıl hesapladıklarıdır. Küçük örnek formül çok daha karmaşık ve karşı sezgisel. Ve gerçekte, gerçekten çok az fark yaratır. Bunu birkaç kez test ettim. Bu yüzden çoğu insanın bu ayrımı unuttuğunu düşünüyorum. Ve çoğu zaman büyük örnek formülünü kullanıyorlar.

— Sympa

0

Welch düzeltilmiş testinin sık özelliklerinin, en azından hatalar için normal Öğrenci T'sinden daha iyi olduğu doğrudur. Welch testi için tek başına bunun oldukça iyi bir argüman olduğuna katılıyorum. Ancak, genellikle Welch düzeltmesini önermekte isteksizim çünkü kullanımı genellikle aldatıcı. Kuşkusuz ki, testin kendisinin bir eleştirisi değildir.

Welch düzeltmesini önermememin nedeni, sadece serbestlik derecelerini ve ardından p-değerinin çizildiği teorik dağılımı değiştirmemesidir. Testi parametrik yapmaz. Bir Welch düzeltmeli t-testi gerçekleştirmek için, bir varyans, eşit varyans kabul edilebileceği gibi varyansı bir araya getirir, ancak daha sonra eşit varyansın kabul edilemeyeceğini veya sadece örnek varyanslarını umursamanızı ima eden son test prosedürünü değiştirir. Bu, parametrik olmayan bir test yapar, çünkü havuzlanmış varyans popülasyonun temsili sayılmaz ve sadece gözlemlediğiniz değerleri test ettiğinize karar verdiniz.

Kendi içinde, bunda özellikle yanlış olan hiçbir şey yoktur. Bununla birlikte, aldatıcı buluyorum çünkü a) tipik olarak yeterince kesin olarak bildirilmemiş; ve b) onu kullanan insanlar, bir t-testi ile bunun yerine değişmeli olarak düşünme eğilimindedir. Yayınlanmış makalelerde yapıldığını bildiğim tek yol, t dağıtımı için garip bir DF gördüğüm zamandı. Bu aynı zamanda Rexton'un (Henrik cevabına referans verilmiş) incelemede anlattığı tek yoldu. Ne yazık ki, Welch düzeltilmiş testinin parametrik olmayan niteliği, serbestlik derecelerinin değişip değişmediği (örneğin, örnek varyansları eşit olsa bile) oluşur. Ancak bu raporlama konusu, Welch düzeltmesini kullanan çoğu kişinin testte bu değişikliği tanımadığı gerçeğinin belirtisidir.

Bu nedenle, bu nedenle, parametrik olmayan bir test önerecek olursanız, genellikle parametrik görünen ya da en azından ne yaptığınız konusunda net olamayacağınızı düşünmeyin. Testin resmi adı Parametrik Olmayan Welch Düzeltilmiş T testi olmalıdır. İnsanlar böyle bildirirse, Henrik'in tavsiyesi üzerine daha mutlu olurdum.

— John
kaynak

Welch testinin neden "aldatıcı" olabileceği konusundaki cevabınızda herhangi bir destek bulamadım. Bunun temelini açıklayabilir misiniz?

— whuber

Belki de düzenlemelerim @whuber'daki şeyleri netleştirdi. Aldatıcı olmanın garanti edilmediği, ancak testin kullanıcısı ve test sonuçlarının okuyucusu için sık sık söz vermeliydim.

— John

1

Teşekkür ederim. Raporlama konusu dışında - ki bu testin bir hatayı olarak nitelendirmek haksızlık olur! - bu sizin Welch testinin parametrik olmadığı konusunda bir tür itiraz gibi görünüyor. Bununla ilgili sorun ne olabilir? Ceteris paribus , bu bir problem değil, bir avantaj olarak görülmeli.

— whuber

1

Genelde net olmayan bir ayrım. Cevapta kendi başına bir sorun olmadığını kabul ediyorum, ancak çoğu insan bunu parametrik olarak tedavi etme eğilimindedir, bu bir hatadır. Burada parametrik olmayan testlerin faydaları veya maliyetleri hakkında tartışmanın yeri olduğunu sanmıyorum. Ayrıca, konu başlığında bahsedilmedi ve birçok insan için bir sorun olabilir. Bir kenara, intro istatistik sınıfımızın ikisi, Student t-testine paralel olarak öğretir ve tanıtır, ancak parametrik olmayan testler üzerine tamamen ayrı bir bölüme sahiptir.

— John

"Testi parametrik hale getirir" ile ne demek istediğinizi açıklayabilir misiniz?

— Glen_b