T-testi veya parametrik olmayan test arasında nasıl seçim yapılır, örneğin küçük numunelerde Wilcoxon


96

Bazı hipotezler, Student t- testi (belki de iki örneklemde eşit olmayan varyanslar için Welch düzeltmesi kullanılarak) veya Wilcoxon eşleştirilmiş imzalı rütbe testi, Wilcoxon-Mann-Whitney U testi gibi parametrik olmayan bir test kullanılarak test edilebilir. veya eşleştirilmiş işaret testi. Nasıl bir yapabilirsiniz ilkeli testi örnek büyüklüğü "küçük" olduğunu, özellikle en uygun hangi karar?

Giriş ders kitaplarının ve ders notlarının birçoğu, bir normallik testiyle veya daha genel olarak QQ arsa veya benzeri bir yöntemle t- testi veya parametrik olmayan bir test arasında karar vermek için normallik kontrolünün yapıldığı (tavsiye edilmeyen şekilde - normallik testi ile veya daha genel olarak) kontrol edilen bir "akış çizelgesi" yaklaşımı verir . Eşleştirilmemiş iki örnekli t testi için Welch'in düzeltmesinin uygulanıp uygulanmayacağına karar vermek için varyansın homojenliği için başka bir kontrol olabilir. Bu yaklaşımla ilgili bir sorun, hangi testin uygulanacağı kararının gözlemlenen verilere ve bunun seçilen testin performansını (gücü, Tip I hata oranı) nasıl etkilediğine bağlıdır.

Başka bir sorun, normal kontrolün ne kadar zor olduğu küçük veri setlerindedir: resmi testler düşük güce sahiptir, bu nedenle ihlaller iyi tespit edilemeyebilir, ancak benzer konular QQ arsalarına göz küresi uygular. Hatta korkunç ihlaller bile tespit edilemeyebilir, örneğin dağıtım karışıksa ancak karışımın bir bileşeninden hiçbir gözlem alınmamıştır. Büyük farklı olarak, Merkezi Limit Teoreminin güvenlik ağına ve test istatistik ve t dağılımının asimptotik normalliğine dayanamıyoruz .n

Buna verilen ilke cevaplardan biri "önce güvenlik" dir: küçük bir numunede normallik varsayımını güvenilir bir şekilde doğrulamanın bir yolu olmadan, parametrik olmayan yöntemlere bağlı kalın. Bir diğeri, normallik varsayımı için herhangi bir temeli göz önünde bulundurmaktır, teorik olarak (örneğin değişken, birkaç rastgele bileşenin toplamıdır ve CLT uygulanır) veya ampirik olarak (örneğin, daha büyük , değişken değişkenli önceki çalışmalar normaldir) ve sadece böyle bir zemin mevcutsa , bir t- testi kullanmaktır. . Ama bu genellikle sadece haklı yaklaşık normalliği ve serbestlik düşük derecelerde üzerinde bunun bir geçersiz kaçınmak gerekir nasıl normale yakın yargılamak zor t testinde gösterilebilir.n

Bir t testi veya parametrik olmayan bir test seçmeye yönelik çoğu kılavuz normallik konusuna odaklanır. Ancak küçük örnekler de bazı yan sorunları ortaya çıkarmaktadır:

  • "İlişkisiz numuneler" veya "eşlenmemiş" t testi yapılırsa, bir Welch düzeltmesi kullanılıp kullanılmayacağı ? Bazı insanlar varyans eşitliği için bir hipotez testi kullanır, ancak burada düşük güce sahip olur; diğerleri, SD’lerin “makul derecede” yakın olup olmadığını kontrol eder (çeşitli kriterlere göre). Nüfus değişikliklerinin eşit olduğuna inanmak için iyi bir neden olmadıkça, basitçe Welch düzeltmesini her zaman küçük örnekler için kullanmak daha mı güvenlidir?

  • Yöntem seçimini güç ve sağlamlık arasında bir takas olarak görürseniz, parametrik olmayan yöntemlerin asimptotik etkinliği hakkındaki iddialar yararsızdır . " Wilcoxon testleri, eğer veriler gerçekten normal ise t-testinin gücünün yaklaşık% 95'ine sahiptir ve veriler değilse genellikle çok daha güçlüdür, bu yüzden sadece bir Wilcoxon kullanın" bazen duyulur, ancak % 95 sadece büyük için geçerliyse , bu daha küçük numuneler için hatalı sebeplerdir.n

  • Küçük numuneler, bir dönüşümün veri için uygun olup olmadığını değerlendirmeyi zorlaştırabilir veya imkansız hale getirebilir , çünkü dönüştürülen verilerin (yeterince) normal bir dağılıma ait olup olmadığını söylemek zor. Eğer bir QQ grafiği, günlükleri aldıktan sonra daha makul görünen çok pozitif eğri verileri ortaya çıkarırsa, kaydedilen veriler üzerinde bir t-testi kullanmak güvenli midir? Daha büyük örneklerde bu çok cazip gelebilirdi, ancak küçük ile muhtemelen ilk etapta log-normal bir dağılım beklemek için gerek yoktu.n

  • Parametrik olmayanlar için varsayımları kontrol etmeye ne dersiniz? Bazı kaynaklar Wilcoxon testini uygulamadan önce (stokastik baskınlıktan ziyade konum testi olarak değerlendirilir) simetrik bir dağılımın doğrulanmasını önerir ; İlk etapta parametrik olmayan bir test uygulamamızın sebebi "önce güvenlik" mantrasına kör bir itaat ise, o zaman küçük bir numuneden çarpıklığı değerlendirmedeki zorluk bizi görünüşte eşleştirilmiş bir işaret testinin daha düşük gücüne götürecektir. .

Bu küçük örneklem sorunları göz önüne alındığında, t ile parametrik olmayan testler arasında karar verirken üzerinde çalışılması gereken iyi - umarım kabul edilebilir bir prosedür var mı?

Birkaç mükemmel cevap var, ancak permütasyon testleri gibi rütbe testlerine alternatifleri düşünen bir cevap da memnuniyetle karşılanacaktır.


2
"Bir test seçme yöntemi" nin ne olabileceğini açıklamalıyım - tanıtım metinleri genellikle akış çizelgeleri kullanır. Eşleştirilmemiş veriler için, belki: "1. Her iki örneğin da normal dağılıp dağılmadığını kontrol etmek için bazı yöntemler kullanın (3’e gitmediyse), 2. Eşit olmayan sapmaları kontrol etmek için bazı yöntemler kullanın: öyleyse, iki örnekli t-testi yapın Welch'in düzeltmesi yapılmadıysa düzeltmeden gerçekleştirin 3. Verileri normalliğe dönüştürmeyi deneyin (işler 2'ye giderse 4'e gidin) 4. Bunun yerine U testi yapın (muhtemelen çeşitli varsayımları kontrol ettikten sonra). " Ancak bu adımların çoğu küçük Q için tatmin edici görünmüyor, umarım Q açıklar!
Silverfish,

2
İlginç bir soru (+1) ve ödül almak için cesurca bir hareket. Bazı ilginç cevaplar için bekliyorum. Bu arada, alanımda sıkça uyguladıklarımı bir permütasyon testi (t testi veya Mann-Whitney-Wilcoxon yerine). Ben de buna değer bir rakip olarak kabul edilebilir. Bunun dışında, ne belirtilen asla size "küçük örnek boyutu" demek.
amip

1
@Alexis Birçok kitap Wilcoxon testinin medyan hakkında simetri yaptığını iddia ediyor, en azından sonuçlar konum hakkında bir açıklama olarak görülüyorsa (bazıları kontrol etmek için bir kutu arsa önerdi: yukarıda Glen ile tartışmamı görün / Frank Harrell'in çok adımlı tehlikeleri için aşağıdaki cevabını görün) prosedür). Ayrıca bazı kaynaklar Wilcoxon-Mann-Whitney U'nun grup dağılımlarının sadece çeviriye göre farklılık gösterdiğini varsaydığını belirtir (ve histogramlar veya ampirik CDF'ler üzerinde görsel kontrol önerir). Bir işaret U testi, medyanlar eşit olsa bile, farklı şekilli dağılımlara bağlı olabilir. Ayrıca Frank Harrell'in cevabındaki yorumlarda belirtilen makalelere de bakınız.
Silverfish

3
@Silverfish "eğer sonuçlar konum hakkında bir açıklama olarak görülürse" Bu önemli bir uyarıdır, çünkü bu testler genellikle H için kanıtlarla ilgili ifadelerdir . Ek dağıtım varsayımları yapmak çıkarım kapsamını daraltır (örneğin, medyan fark testleri), ancak genel olarak testler için zorunlu değildir. 0:P(XA>XB)=0.5
Alexis

2
“Wilcoxon'un% 95 gücündeki gücün”% 95'inin ne kadar “kusurlu” olduğunu araştırmaya değebilir (kısmen bunun ne olduğuna, ne kadar küçük olduğuna bağlıdır). Örneğin,% 5 yerine% 5,5 oranında test yapmaktan memnuniyet duyuyorsanız, bu en yakın elde edilebilecek anlamlılık seviyesi olsa bile, güç genellikle oldukça iyi bir şekilde kalmaya meyillidir. Tabii ki bir kez - veri toplamadan önce "güç hesaplama" aşamasında - koşulların ne olduğunu anlayın ve Wilcoxon'un özelliklerinin düşündüğünüz örnek boyutlarda ne olduğu hakkında bir fikir edinin.
Glen_b

Yanıtlar:


67

İle ilgili soruların sırasını değiştireceğim.

Ders kitaplarını ve ders notlarını sık sık katılmıyorum ve sistemin en iyi uygulama olarak güvenle önerilebilecek bir seçim yapmasını ve özellikle bunun için belirtilebilecek bir ders kitabı veya makaleyi bulmasını istiyorum.

Ne yazık ki, bu konuda bazı tartışmalar kitaplarda vb. Bilgelikten kaynaklanmaktadır. Bazen alınan bilgelik makul olur, bazen daha azdır (en azından daha büyük bir problem göz ardı edildiğinde daha küçük bir konuya odaklanma eğiliminde olduğu anlamına gelir); Tavsiye için sunulan gerekçeleri (eğer herhangi bir gerekçe sunulmuşsa) dikkatle incelemeliyiz.

Bir t testi veya parametrik olmayan bir test seçmeye yönelik çoğu kılavuz normallik konusuna odaklanır.

Bu doğru, ancak bu cevapta ele almamın birkaç nedeni yüzünden yanlış yönlendirilmiş.

"İlişkisiz numuneler" veya "eşlenmemiş" t testi yapılırsa, bir Welch düzeltmesi kullanılıp kullanılmayacağı?

Bu (varyansların eşit olması gerektiğini düşünmek için bir nedeniniz yoksa kullanmak için) sayısız referansın tavsiyesidir. Bu cevabın bazılarına işaret ediyorum.

Bazı insanlar varyansların eşitliği için bir hipotez testi kullanır, ancak burada düşük güce sahip olur. Genel olarak, sadece örnek SD'lerin “makul derecede” yakın olup olmadıklarını göz önünde bulunduruyorum (bu biraz öznel, bu yüzden bunu yapmanın daha ilkeli bir yolu olmalı), ancak yine de düşük n ile popülasyon SD'lerinin daha ileri düzeyde olabileceğini düşünüyorum. örnek olanlar dışında.

Nüfus değişkenlerinin eşit olduğuna inanmak için iyi bir neden olmadıkça, basitçe Welch düzeltmesini her zaman küçük örnekler için kullanmak daha mı güvenlidir? Tavsiye budur. Testlerin özellikleri, varsayım testine dayanan seçimden etkilenir.

Bununla ilgili bazı referanslar burada ve burada görülebilir , ancak benzer şeyler söyleyenler var.

Eşitlik varyansı sorunu, normallik meselesine benzer birçok özelliğe sahiptir - insanlar bunu test etmek ister, tavsiyeler, testlerin sonuçları üzerindeki şartlı test seçiminin, her iki sonraki test türünün sonuçlarını olumsuz yönde etkileyebileceğini gösterir - ne olduğunu varsaymamak daha iyidir. Yeterince haklı çıkaramazsınız (veriyi düşünerek, aynı değişkenlerle ilgili diğer çalışmalardan gelen bilgileri kullanarak vb.)

Ancak, farklılıklar var. Birincisi - en azından null hipotezi altında test istatistiğinin dağılımı açısından (ve dolayısıyla seviyesinin sağlamlığı) - normalliğin normal olmaması büyük numunelerde (en azından önem seviyesi bakımından) daha az önemlidir. küçük etkiler bulmanız gerekiyorsa yine de bir sorun olabilir), eşit varyans varsayımı altında eşit olmayan varyansların etkisi gerçekten büyük örneklem büyüklüğü ile ortadan kalkmaz.

Numune boyutu "küçük" olduğunda en uygun testin hangisi olduğunu seçmek için hangi ilkeli yöntem önerilebilir?

Hipotez testlerinde önemli olan (bazı koşullar altında) öncelikle iki şeydir:

  • Gerçek tip I hata oranı nedir?

  • Güç davranışı nasıldır?

Ayrıca, iki işlemi karşılaştırırsak, ilkini değiştirmenin ikinciyi değiştireceğini (yani, aynı gerçek önem düzeyinde gerçekleştirilmezlerse, daha yüksek ile ilişkili olacağını beklememiz gerektiğini aklımızda tutmamız gerekir. daha fazla güç).α

Bu küçük örneklem sorunları göz önüne alındığında, t ile parametrik olmayan testler arasında karar verirken çalışılacak iyi - umarım kabul edilebilir - bir kontrol listesi var mı?

Hem normal olmama hem de eşitsiz varyans olasılığını göz önünde bulundurarak bazı önerilerde bulunacağım bazı durumları ele alacağım. Her durumda, Welch testini ima eden t-testinden bahsedin:

  • n orta-büyük

Normal olmayan (veya bilinmeyen), neredeyse eşit varyansa sahip olma olasılığı:

Eğer dağılım ağır kuyrukluysa, genellikle bir Mann-Whitney ile daha iyi olursunuz, bununla birlikte sadece biraz ağırsa, t testi yeterli olur. Hafif kuyruklarda t-testi (sıklıkla) tercih edilebilir. Permütasyon testleri iyi bir seçenektir (eğer böyle bir eğilim varsa, t-istatistiği kullanarak bir permütasyon testi bile yapabilirsiniz). Önyükleme testleri de uygundur.

Normal olmayan (veya bilinmeyen), eşitsiz varyans (veya bilinmeyen varyans ilişkisi):

Eğer dağılım ağır kuyruklu ise, genellikle bir Mann-Whitney ile daha iyi olursunuz - eğer varyans eşitsizliği sadece ortalamanın eşitsizliği ile ilgiliyse - yani H0 doğruysa, dağılımdaki fark da olmamalıdır. GLM'ler genellikle iyi bir seçenektir, özellikle de çarpıklık ve yayılma varsa ortalamayla ilişkilidir. Permütasyon testi, rütbe bazlı testlerde olduğu gibi benzer bir uyarıya sahip bir başka seçenektir. Bootstrap testleri burada iyi bir olasılık.

Zimmerman ve Zumbo (1993) , varyansların eşit olmadığı durumlarda Wilcoxon-Mann-Whitney'den daha iyi performans gösterdiklerini söyleyen rütbelere Welch-t testi önermektedir.[1]

  • n orta derecede küçük

Eğer normal olmama durumu (yine yukarıdaki ihtarla) beklediğiniz takdirde rütbe testleri makul varsayılanlardır. Şekil veya sapma hakkında dış bilginiz varsa, GLM'leri düşünebilirsiniz. İşlerin normalden çok uzak olmamasını düşünüyorsanız, t-testleri iyi olabilir.

  • n çok küçük

Uygun anlamlılık seviyelerinin elde edilmesindeki problem nedeniyle, ne permütasyon testleri ne de rütbe testleri uygun olmayabilir ve en küçük boyutlarda, bir t-testi en iyi seçenek olabilir (biraz sağlamlaştırma olasılığı vardır). Ancak, küçük örneklerle daha yüksek tip I hata oranlarını kullanmanın iyi bir argümanı vardır (aksi halde tip I hata oranlarını sabit tutarken tip II hata oranlarının artmasına izin veriyorsunuz). Ayrıca bkz. De Winter (2013) .[2]

Tavsiyeler, dağılımların hem eğriltilmiş hem de çok farklı olduğu durumlarda, gözlemlerin çoğunun son kategorilerden birinde yer aldığı Likert ölçekli maddeler gibi, biraz değiştirilmelidir. O zaman Wilcoxon-Mann-Whitney'nin mutlaka t-testinden daha iyi bir seçim olması gerekmez.

Simülasyon, olası durumlar hakkında bir bilginiz olduğunda seçimlerin daha da yönlendirilmesine yardımcı olabilir.

Bunun çok yıllık bir konu olduğu için minnettarım, ancak çoğu soru, sorgunun özel veri kümesini, bazen daha genel bir güç tartışmasını ve bazen iki testin aynı fikirde olmadığı durumlarda ne yapılacağını ilgilendiriyor. ilk etapta!

Asıl sorun, küçük bir veri setinde normallik varsayımını kontrol etmenin ne kadar zor olduğudur:

İse küçük bir veri seti durumun normale kontrol edin ve önemli bir konu bir ölçüde zor, ama biz dikkate almak gerekir önem başka bir sorun var. Temel bir sorun, normalliği testler arasında seçim yapmanın temeli olarak değerlendirmeye çalışmanın, seçtiginiz testlerin özelliklerini olumsuz yönde etkilemesidir.

Herhangi bir normallik testinin düşük güce sahip olması dolayısıyla ihlallerin tespit edilememesi olasıdır. (Şahsen bu amaç için test yapmam ve net bir şekilde yalnız değilim, ancak müşterilerim bir normallik testi yapılmasını istediğinde bu çok az kullanım buldum çünkü bu onların ders kitabı veya eski ders notları veya bir keresinde buldukları bazı web siteleri. ilan edilmesi gerekiyor. Bu, daha ağır görünen bir alıntı yapılmasının memnuniyetle karşılanacağı bir nokta.)

İşte net olmayan bir referans örneği (diğerleri var): (Fay ve Proschan, 2010 ):[3]

T- ve WMW DR'ler arasındaki seçim, bir normallik testine dayanmamalıdır.

Onlar benzer şekilde, varyans eşitliği için test yapmama konusunda da açık değildir.

Daha da kötüsü, Merkezi Limit Teoremini bir güvenlik ağı olarak kullanmak güvenli değildir: küçükler için test istatistiğinin ve dağılımının uygun asimptotik normalliğine güvenemeyiz.

Büyük örneklerde bile - payın asimptotik normalliği, t-istatistiklerinin t dağılımına sahip olacağı anlamına gelmez. Bununla birlikte, bu kadar önemli olmayabilir, çünkü hala asimptotik normallik göstermelisiniz (örn. Pay için CLT ve Slutsky teoremi, her ikisi için de şartlar geçerliyse, sonunda t-istatistiğinin normal görünmeye başlaması gerektiğini önerir).

Buna verilen ilke cevaplardan biri "önce güvenlik" dir: küçük bir örneklemin normallik varsayımını güvenilir bir şekilde doğrulamanın bir yolu olmadığından eşdeğer bir parametrik olmayan test uygulayın.

Bu aslında bahsettiğim referansların (veya bahsettiğimiz bağlantıların) verdiği tavsiye.

Gördüğüm, ancak daha az rahat hissettiğim bir başka yaklaşım ise, görsel bir kontrol yapmak ve eğer istenmeyen bir şey gözlenmezse ("normalliği reddetmek için bir sebep yok", bu kontrolün düşük gücünü göz ardı ederek) t testi ile devam etmektir. Benim kişisel eğilimim, normallik varsayımı için herhangi bir gerekçe olup olmadığını, teorik (ör. Değişken birkaç rastgele bileşenin toplamıdır ve CLT'nin geçerli olduğunu) veya deneysel (örneğin n'nin daha büyük n değişkenini içeren önceki çalışmaların normal olduğunu) düşünmemdir.

İkisi de iyi argümanlardır, özellikle t-testinin normallikten ılımlı sapmalara karşı makul derecede sağlam olduğu gerçeğiyle desteklendiğinde. (“Ilımlı sapmaların” aldatıcı bir ifade olduğu akılda tutulmalıdır; normallikten kaynaklanan bazı sapmalar, bu sapmalar görsel olarak çok küçük olsa bile, t-testinin güç performansını oldukça etkileyebilir. Test bazı sapmalara diğerlerinden daha az sağlamdır. Normalden küçük sapmalardan bahsederken bunu aklımızda tutmalıyız.)

Bununla birlikte, "değişkene normal olduğunu öner" ifadesine dikkat edin. Normallik ile makul bir şekilde tutarlı olmak normallikle aynı şey değildir. Verileri görmeye bile gerek kalmadan gerçek normalliği reddedebiliriz - örneğin, eğer veriler negatif olamazsa, dağılım normal olamaz. Neyse ki, önceki çalışmalardan ya da verinin nasıl oluşturulduğuna dair gerekçelerden ne olabileceğimize daha yakın olan şey, normalden sapmaların küçük olması gerektiğidir.

Öyleyse, veriler görsel incelemeden geçerse bir t-testi kullanır, aksi takdirde parametrik olmayanlara sadık kalırdım. Ancak herhangi bir teorik veya ampirik gerekçeler genellikle sadece yaklaşık normallik varsayımını haklı çıkarmaktadır ve düşük serbestlik derecelerinde, bir t-testini geçersiz kılmamak için ne kadar normal olması gerektiğine karar vermek zordur.

Bu, oldukça kolay bir şekilde etkisini değerlendirebileceğimiz bir şey (daha önce de bahsettiğim gibi simülasyonlar gibi). Gördüklerime göre, eğriltme, ağır kuyruklardan daha önemli gibi gözüküyor (ancak diğer taraftan tam tersi iddialar görmüştüm.

Yöntem seçimini güç ve sağlamlık arasında bir takas olarak gören insanlar için, parametrik olmayan yöntemlerin asimptotik etkinliği hakkındaki iddialar yararsızdır. Örneğin, "Wilcoxon testleri, eğer veriler gerçekten normalse t-testinin gücünün% 95'ine sahiptir ve veriler değilse genellikle çok daha güçlüdür, bu nedenle sadece bir Wilcoxon kullanın" duydum, ancak% 95 yalnızca büyük n için geçerliyse, bu daha küçük numuneler için hatalı bir sebeptir.

Fakat küçük örneklem gücünü kolayca kontrol edebiliriz! Burada olduğu gibi güç eğrileri elde etmek için simülasyon yapmak kolaydır .
(Yine, ayrıca bkz. Winter (2013) ).[2]

Hem iki örneklemli hem de tek örneklemli / çift örneklemeli durumlar için çeşitli koşullar altında bu tür simülasyonları yaptıktan sonra, her iki durumda da normaldeki küçük örneklem verimliliği, asimptotik verimden biraz daha düşük görünmektedir, ancak etkinlik İmzalı rütbe ve Wilcoxon-Mann-Whitney testleri çok küçük örneklem boyutlarında bile hala çok yüksektir.

En azından testler aynı gerçek önem düzeyinde yapılırsa; çok küçük numunelerle% 5 test yapamazsınız (ve en azından örneğin randomize testler olmadan), ama belki de% 5.5 veya% 3.2 testine hazırsanız (o zaman rütbe testleri) Bu anlamlılık düzeyinde bir t-testi ile karşılaştırıldığında gerçekten çok iyi tutun.

Küçük numuneler, bir dönüşümün veri için uygun olup olmadığını değerlendirmeyi zorlaştırabilir veya imkansız hale getirebilir, çünkü dönüştürülen verilerin (yeterince) normal bir dağılıma ait olup olmadığını söylemek zor. Eğer bir QQ grafiği, günlükleri aldıktan sonra daha makul görünen çok pozitif eğri verileri ortaya çıkarırsa, kaydedilen veriler üzerinde bir t-testi kullanmak güvenli midir? Daha büyük örneklerde bu çok cazip gelebilirdi, ancak küçük n ile muhtemelen ilk etapta log-normal bir dağılım beklemek için gerek yoktu.

Başka bir alternatif var: farklı bir parametrik varsayım yapın. Örneğin, çarpık veri varsa, örneğin, bazı durumlarda makul bir şekilde bir gama dağılımını veya başka bir çarpık aileyi daha iyi bir yaklaşım olarak düşünebilirsiniz - orta derecede büyük örneklerde, yalnızca bir GLM kullanabiliriz, ancak çok küçük örneklerde Küçük örneklem testine bakmak gerekli olabilir - çoğu durumda simülasyon faydalı olabilir.

Alternatif 2: t-testini sağlamlaştırın (ancak test istatistiğinin sonuç dağılımını ağır şekilde mahvetmemek için sağlam prosedür seçimine dikkat edin) - bu, kabiliyet gibi çok küçük örneklemeli parametrik olmayan bir prosedür üzerinde bazı avantajlara sahiptir. Düşük tip I hata oranına sahip testleri dikkate almak.

Burada t-istatistiğindeki yerin M-tahmin edicilerinin (ve ilgili ölçek tahmin edicilerinin) normallikten sapmalara karşı yumuşak bir şekilde sağlamlaştırmak için kullanılma çizgileri boyunca düşünüyorum. Welch'e benzer bir şey:

xySp

burada ve , etc sırasıyla konum ve ölçeğin sağlam tahminleridir.Sp2=sx2nx+sy2nyxsx

İstatistiğin herhangi bir eğilimine olan eğilimini azaltmayı hedeflerdim - bu nedenle kesim ve Winsorizing gibi şeylerden kaçınırdım çünkü orijinal veriler ayrık olsaydı, kesim vb. M-tahmini türü yaklaşımlarını sorunsuz bir işleviyle kullanarak, ayrıcalığa katkıda bulunmadan benzer etkiler elde edersiniz. gerçekten çok küçük olduğu durumlarla (örneğin her örnekte 3-5 civarında) başa çıkmaya çalıştığımızı unutmayın , bu nedenle M-tahminde bile potansiyel olarak sorunlar vardır.ψn

Örneğin, p değerlerini elde etmek için normalde simülasyonu kullanabilirsiniz (örnek boyutları çok küçükse, önyüklemenin aşırı yapılmasını öneririm - örnek boyutları çok küçük değilse, dikkatlice uygulanan bir önyükleme oldukça iyi olabilir. ama sonra da Wilcoxon-Mann-Whitney'e geri dönebiliriz. Tahmin edebileceğim şeyi elde etmek için bir df ayarının yanı sıra bir ölçeklendirme faktörü de var ve makul bir t-yaklaşımı olacak. Bu, normale çok yakın aradığımız özellikleri almalı ve normalin geniş çevresinde makul sağlamlığa sahip olmalıyız. Bu sorunun kapsamı dışında kalan bir takım meseleler var, ancak çok küçük örneklerde faydaların maliyetleri ve gereken ekstra çabayı geçmesi gerektiğini düşünüyorum.

[Bu konuyla ilgili literatürü çok uzun zamandır okumadım, bu yüzden bu konuda teklif edecek uygun referanslarım yok.]

Elbette, dağılımın biraz normal görünmesini beklemiyorsanız, fakat diğer bazı dağıtımlara benzer olmasını beklemiyorsanız, farklı bir parametrik test için uygun bir sağlamlaştırma işlemi gerçekleştirebilirsiniz.

Parametrik olmayanlara ilişkin varsayımları kontrol etmek istiyorsanız? Bazı kaynaklar, normallik kontrolünde benzer problemler ortaya çıkaran bir Wilcoxon testi uygulanmadan önce simetrik bir dağılımın doğrulanmasını tavsiye eder.

Aslında. Sanırım imzalı rütbe testi * demek istiyorsun. Eşleştirilmiş veriler üzerinde kullanılması durumunda, iki dağılımın konum kaymasından ayrı olarak aynı şekilde olduğunu varsaymaya hazırsanız, farklar simetrik olması gerektiği için emniyette olursunuz. Aslında o kadar da ihtiyacımız yok; Testin çalışması için sıfırın altında simetriye ihtiyacınız vardır; alternatif kapsamında gerekli değildir (örneğin, ölçeklerin alternatif altında farklı olduğu, ancak null altında olmadığı, pozitif yarım çizgi üzerinde aynı şekilde sağa eğik sürekli dağılımlara sahip eşleştirilmiş bir durumu göz önünde bulundurun; O vaka). Alternatif olsa da bir yer kayması ise testin yorumlanması daha kolaydır.

* (Wilcoxon'un adı hem bir hem de iki örnek sıralama testi ile ilişkilidir - imzalanmış derece ve derece toplamı; U testi ile Mann ve Whitney, Wilcoxon tarafından çalışılan durumu genelleştirmiş ve boş dağılımın değerlendirilmesi için önemli yeni fikirler getirmiştir. Öyle görünüyor ki, ancak bu kadar en azından biz sadece Mann & Whitney vs Wilcoxon düşünülürse, Wilcoxon kitabımda ilk gider -. Wilcoxon-Mann-Whitney üzerindeki yazarların iki takım arasındaki öncelik açıkça Wilcoxon en olduğunu Stigler'in Kanunu yine beni aşar, ve Wilcoxon belki de bu önceliğin bir kısmını daha önce katkıda bulunanlar ile paylaşmalı ve (Mann ve Whitney dışında) eşdeğer bir testin birkaç keşfi ile kredi paylaşmalıdır. [4] [5])

Referanslar

[1]: Zimmerman DW ve Zumbo BN, (1993),
Rank dönüşümleri ve normal olmayan popülasyonlar için Öğrenci t-testi ve Welch t′-testinin gücü,
Kanada Dergisi Deneysel Psikoloji, 47 : 523-39.

[2]: JCF de Winter (2013),
"Öğrenci t-testini son derece küçük örneklem büyüklüğünde kullanma",
Pratik Değerlendirme, Araştırma ve Değerlendirme , 18 : 10, Ağustos, ISSN 1531-7714
http://pareonline.net/ ? getvn.asp h = 18 ve n = 10

[3]: Michael P. Fay ve Michael A. Proschan (2010),
"Wilcoxon-Mann-Whitney veya t-testi? Hipotez testleri için varsayımlar ve karar kurallarının çoklu yorumları"
Stat Surv ; 4 : 1–39.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/

[4]: Berry, KJ, Mielke, PW ve Johnston, JE (2012),
"İki Örnekli Sıra Toplamı Testi: Erken Gelişim,"
Olasılık ve İstatistik Tarihi Elektronik Dergisi , Cilt 8, Aralık
pdf

[5]: Kruskal, WH (1957),
"Wilcoxon eşleşmemiş iki örneklem testi ile ilgili tarihsel notlar,"
Amerikan İstatistik Kurumu Dergisi , 52 , 356-360.


Açıklama yapmak istediğim birkaç şey var. Bahsettiğiniz bazı noktalar var. Örneğin, “Eğer dağıtım ağır kuyruklu ise,…” (veya çarpık vb.) - büyük olasılıkla bu, “dağılımın ağır kuyruklu olacağını varsaymak makulsa” olarak okunmalıdır (teorik olarak). / önceki çalışmalar / her neyse) "örnek çok kuyrukluysa" yerine, aksi halde kaçınmaya çalıştığımız şey yine çok aşamalı testlere geri dönüyoruz. (Bana göre bu konuyla ilgili merkezi bir sorun, örneklem üzerinde fazla okumadan dağıtımlarla ilgili inanç ve varsayımların nasıl haklı çıkarılacağıdır.)
Silverfish

Evet, "popülasyonun ya kuyruklu olduğu biliniyor, ya da kuyruklu olması makul olarak bekleniyor olabilir" olarak anlaşılmalıdır. Bu kesinlikle teori (veya oldukça durumunu bulmuyor durum hakkında hatta bazen genel muhakeme gibi şeyleri içerir teori ), uzman bilgisi ve önceki çalışmalarda. Ağır kuyruklu olma testi yapılmasını önermez. Basitçe bilinmediği durumlarda, sahip olduğunuz belirli durumlar için makul olabilecek çeşitli dağılımlar altında eşyaların ne kadar kötü olabileceğini araştırmaya değer olabilir.
Glen_b

Zaten bu mükemmel cevabın t-testini "sağlamlaştırmak" için hangi seçeneklerin olabileceği konusunda biraz daha fazla ayrıntıya yer verme şansı var mı?
Silverfish

Silverfish - Sağlamlaştırma hakkında ayrıntılı bilgi almak için sorunuzu yeterince ele alıp almadığımdan emin değilim. Şimdi biraz daha ekleyeceğim.
Glen_b

Ekleme için çok teşekkürler, bu cevabın niteliğine çok şey kattığını düşündüm. Şimdi bu soru biraz çözüldü ve iyi bir cevap dizisi oluşturdu, orijinal soruya iyi bir kopya düzenleme ve yanıltıcı olabilecek herhangi bir şeyi kaldırmak istiyorum (geçmişte okumayan okuyucular için) soru!). Bunu yaptığım zaman cevabınıza uygun düzenlemeler yapmamın bir anlamı yok, bu yüzden alıntılar yeniden düzenlenmiş soru ile uyuşuyor mu?
Silverfish

22

Benim görüşüme göre, ilke yaklaşımı (1) normallik testlerinin ve grafiksel değerlendirmelerinin yetersiz hassasiyete sahip olduğunu ve grafik yorumlamanın sıklıkla objektif olmadığını, (2) çok adımlı prosedürlerin belirsiz çalışma özelliklerine sahip olduğunu, (3) birçok parametrik olmayan testlerin mükemmel çalışma özelliklerine sahip olduğunu kabul ediyor. parametrik testlerin optimum güce sahip olduğu durumlarda ve (4) doğru dönüşümü genellikle özdeşlik işlevi değildir ve parametrik olmayank t PYk-örnek testleri seçilen dönüşüm için değişmez (Wilcoxon imzalı rütbe testi gibi tek örneklemli testler için böyle değildir). (2) ile ilgili olarak, çok aşamalı prosedürler, FDA gibi gözetim kuruluşlarının, sonuçların olası manipülasyonu hakkında haklı olarak endişelendiği, ilaç geliştirme gibi alanlarda özellikle sorunludur. Örneğin, ahlaksız bir araştırmacı, eğer testi düşük bir değeriyle sonuçlanırsa normalliğin testini bildirmeyi rahatlıkla unutabilir .tP

Bunları bir araya getirmek için önerilen bazı rehberler aşağıdaki gibidir:

  1. Verileri incelemeden önce bir Gauss dağılımını varsaymak için zorunlu bir neden yoksa ve ortak değişken ayarlaması gerekmiyorsa, parametrik olmayan bir test kullanın.
  2. Eş değişken ayarlaması gerekiyorsa, tercih ettiğiniz sıralama testinin yarı parametrik regresyon genellemesini kullanın. Wilcoxon testi için bu orantılı oran modeli ve normal puan testi için bu probit ordinal regresyondur.

Kilonuz belirli küçük örneklem büyüklükleri için değişiklik gösterse de, bu öneriler oldukça geneldir. Ancak, daha büyük numuneler için Wilcoxon 2-örnek testinin ve işaretli sıra testlerinin testine kıyasla (2-örnek durumda eşit değişkenlik varsa) göreceli verimliliğinin ve Gauss dağılımına uymadığı zaman rütbe testlerinin göreceli verimliliğinin çoğu zaman 1.0'dan daha büyük olduğunu Bana göre, rütbe testlerini kullanmadaki bilgi kaybı, olası kazanımlara, sağlamlığa ve dönüşümünü belirtmek zorunda kalma özgürlüğüne kıyasla çok küçük .3t Y3πY

Parametrik olmayan testler, optimallik varsayımlarına uyulmasa bile iyi performans gösterebilir. İçin -Örnek sorun, rank testleri, belirli bir grup için dağıtım ilgili hiçbir tahminde bulunmuyorum; Testin optimal olmasını istiyorsanız , sadece gruplarının dağılımlarının birbirine nasıl bağlandığına dair varsayımlarda bulunurlar. Bir link kümülatif olasılık ordinal modelinde, dağılımların orantılı tehlikelerde olduğu varsayılmaktadır. Bir logit bağlantısı kümülatif olasılık modeli (orantılı oran modeli) için, dağılımların orantılı olasılık varsayımlarıyla bağlandığı varsayılmaktadır, yani, kümülatif dağılım fonksiyonlarının logları paraleldir. Dağılımlardan birinin şekli anlamsızdır. Ayrıntılar bulunabilirk - günlük -kklogloghttp://biostat.mc.vanderbilt.edu/CourseBios330 Bildiriler Bölüm 15'te.

Sıkça ele alınan, sık bir istatistiksel yönteme ilişkin iki tür varsayım vardır. Birincisi, yöntemin tip I hatayı korumasını sağlamak için gereken varsayımlardır. İkincisi, tip II hatasının korunması ile ilgilidir (optimallik; hassasiyet). İkincisi için gereken varsayımları ortaya çıkarmanın en iyi yolunun, yukarıdaki gibi bir yarı parametrik modele parametrik olmayan bir test yerleştirmek olduğuna inanıyorum. İkisi arasındaki gerçek bağlantı, yarı parametrik modelden kaynaklanan Rao etkin skor testlerindendir. İki örnek durum için orantılı oran modelinden alınan puan testinin payı tam puan istatistiğidir.


1
Bunun için teşekkürler, bu cevabın felsefesine çok sempati duyuyorum - örneğin, pek çok kaynak bir teste karar vermeden önce en azından normalliği gözle kontrol etmem gerektiğini önerir. Ancak, bu tür çok adımlı prosedür, açıkça de olsa, açıkça testlerin nasıl çalıştığını etkiler.
Silverfish

1
Bazı sorgular: (1) Gauss dağılımını a priori (örneğin önceki çalışmalar) varsaymak için iyi bir neden olduğunu varsayalım, bu yüzden bir t-testi tercih ediyoruz. Minik için normalliği değerlendirmeye çalışmanın bir anlamı yok - ihlali tespit edilemeyecek. Ancak ya da öylesine bir QQ grafiği, örneğin ciddi bir çarpıklık varsa iyi görünebilir. Çok adımlı prosedürlerden kaçınmanın felsefesi, normallik varsayımımızı haklı çıkarmamız, ardından verilerimizin görünür dağılımını kontrol etmeden devam etmemiz gerektiği anlamına mı geliyor? Benzer şekilde, k örneği durumunda, varsayılan olarak kontrol etmeye çalışmak yerine eşitsiz varyanslar varsaymalı mıyız? n = 15nn=15
Silverfish

3
(+1) Mann-Whitney-Wilcoxon vs permütasyon testlerine ne dersiniz olduğunu merak ediyorum (Grup etiketleri karıştırıldığında örneğin kez ve değeri doğrudan olarak hesaplandığında Monte Carlo permütasyon testini kastediyorum. daha büyük grup farkına neden olan karıştırma sayısı)? p10000p
amip

4
Permütasyon testleri tip I hatasını kontrol etmenin yoludur ancak tip II hatasını ele almaz. Suboptimal istatistiklere dayanan bir permütasyon testi (ör., Veriler bir log-Gauss dağılımından geldiğinde sıradan ortalama ve varyans), güç açısından zarar görür.
Frank Harrell

3
Evet Bildirilerdeki 15. Bölüm, kitabımın gelecek 2. basımında gelecek ay yayıncıya sunacağım yeni bir bölüme genişletildi.
Frank Harrell

13

Yayınlarında ve kitaplarında bulunan Rand Wilcox, bazıları Frank Harrell ve Glen_b tarafından daha önceki yayınlarda listelenen bazı önemli noktaları ortaya koyuyor.

  1. Ortalama, mutlaka çıkarım yapmak istediğimiz miktar değildir. Tipik bir gözlemi daha iyi örneklendiren başka miktarlar da olabilir .
  2. T-testleri için normalden küçük ayrılmalarda bile güç düşük olabilir.
  3. T-testleri için, gözlenen olasılık kapsamı nominal değerden büyük ölçüde farklı olabilir.

Bazı önemli öneriler:

  1. Sağlam bir alternatif, t-testini kullanarak kesilmiş araçları veya M-tahmin edicilerini karşılaştırmaktır. Wilcox,% 20 oranında kesilmiş araç olduğunu göstermektedir.
  2. Ampirik Olabilirlik yöntemleri teorik olarak daha avantajlıdır ( Owen, 2001 );
  3. Tip I hatasını kontrol etmesi gerekiyorsa Permütasyon testleri mükemmeldir, ancak biri CI alamaz.
  4. Birçok durumda Wilcox, kesilmiş araçları karşılaştırmak için önyükleme-t'yi önerir. R, bu fonksiyonlar uygulanmaktadır yuenbt , yhbt içinde WRS paketi.
  5. Yüzdelik önyükleme, kırpma miktarı> / =% 20 olduğunda, yüzdelik değerinden daha iyi olabilir. R'de bu, yukarıda belirtilen WRS paketindeki pb2gen fonksiyonunda uygulanmaktadır .

İki iyi referans Wilcox ( 2010 ) ve Wilcox ( 2012 ) ' dır .


8

Bradley, Dağılımsız İstatistiksel Testler (1968, s. 17–24) çalışmalarında “klasik” ve “dağıtımsız” testler arasında on bir zıtlık getiriyor. Bradley'in "parametrik olmayan" ve "dağıtım gerektirmeyen" arasında farklılaştığını unutmayın, ancak sorunuzun amacı için bu farkın bir önemi yoktur. Bu onüçlerde, sadece testlerin türevleriyle değil, uygulamalarıyla ilgili unsurlar da yer almaktadır. Bunlar şunları içerir:

  • Anlamlılık seviyesi seçimi: Klasik testler sürekli anlamlılık seviyelerine sahiptir; dağıtım gerektirmeyen testler genellikle anlamlılık seviyelerinin ayrı ayrı gözlemlerine sahiptir; bu nedenle klasik testler, söz konusu seviyenin ayarlanmasında daha fazla esneklik sunar.
  • Reddetme bölgesinin mantıksal geçerliliği: Reddedilmemiş test reddi bölgeleri, daha az sezgisel olarak anlaşılabilir (ne mutlaka düzgün ne de sürekli değildir) ve testin boş hipotezi reddettiği zaman düşünülebileceği konusunda karışıklığa neden olabilir.
  • Test edilebilir istatistik türleri: Bradley'e doğrudan alıntı yapmak için: " Gözlem büyüklükleri üzerine aritmetik işlemlerle tanımlanan istatistikler klasik tekniklerle test edilebilir, sıralı ilişkiler (sıralama) veya kategori frekansları vb. dağılımsız yöntemler. Ortalamalar ve varyanslar, ikincisinin önceki ve ortancaları ve çeyrekler arası aralıklarının örnekleridir. "Özellikle normal olmayan dağılımlarla uğraşırken, diğer istatistikleri test etme kabiliyeti değerli hale gelir, dağılımsız testlere ağırlık verir .
  • Üst düzey etkileşimlerin test edilebilirliği : Klasik testlerde dağılımsız testlerden çok daha kolay.
  • Örneklem büyüklüğünün etkisi:Bu bence oldukça önemli bir konu. Numune boyutları küçük olduğunda (Bradley, n = 10 civarında diyor), klasik testlerin altında yatan parametrik varsayımların ihlal edilip edilmediğini belirlemek çok zor olabilir. Dağıtım gerektirmeyen testlerde ihlal edilecek varsayımlar yoktur. Üstelik, varsayımlar ihlal edilmemiş olsa bile, dağıtımsız testler çoğu zaman hemen hemen kolay uygulanır ve neredeyse bir test kadar verimlidir. Bu nedenle küçük örneklem büyüklükleri için (10'dan az, 30'a kadar mümkün) Bradley, dağıtımsız testlerin neredeyse rutin bir uygulamasını tercih eder. Büyük örneklem büyüklükleri için, Merkezi Limit Teoremi, örnek ortalama ve örneklem varyansının normale dönmesi nedeniyle parametrik ihlalleri zorlama eğilimindedir ve parametrik testlerin etkinlik açısından üstün olabileceği düşünülmektedir.
  • Uygulama Alanları: Bu tür testler, dağıtım gerektirmeden, belirli bir dağılıma bürünen klasik testlerden çok daha geniş bir popülasyon sınıfına uygulanabilir.
  • Sürekli bir dağılım varsayımının ihlal edildiğinin tespit edilebilirliği: Dağıtımsız testlerde (örneğin, bağlı puanların varlığı) kolay anlaşılır, parametrik testlerde daha zordur.
  • Sürekli bir dağılım varsayımının ihlal edilmesinin etkisi: Eğer varsayım ihlal edilirse test yanlış olur. Bradley, uygunsuzluğun sınırlarının dağıtım gerektirmeyen testler için nasıl tahmin edilebileceğini açıklamak için zaman harcar, ancak klasik testler için benzer bir rutin yoktur.

1
Alıntı yaptığınız için teşekkürler! Bradley'in çalışmaları oldukça eski görünüyor, bu yüzden çeşitli senaryolarda etkinlikleri ve Tip I / II hata oranlarını karşılaştırmak için modern simülasyon çalışmalarında fazla çalışmadığından şüpheleniyorum. Brunner-Munzel testleri hakkında önerdikleriyle de ilgilenirim - eğer iki gruptaki farklılıkların eşit olmadığı bilinirse U testi yerine kullanılmalı mı?
Silverfish

1
Bradley, etkinlikleri tartışıyor, ancak çoğu zaman asimptotik göreceli verimlilik bağlamında. Sonlu örneklem büyüklüğü verimliliği ile ilgili ifadeler için bazen kaynaklar getirir, ancak çalışma 1968'den beri, o zamandan beri çok daha iyi analizlerin yapıldığından eminim. Bunlardan bahsetmişken, eğer haklıysam, Brunner ve Munzel 2000 yılında makalelerini yazdılar ; bu, Bradley’de neden bahsetmediğini açıklıyor.
Avraham

Evet bu gerçekten açıklar! :) Bradley'den daha güncel bir anket olup olmadığını biliyor musunuz?
Silverfish

Kısa bir araştırma parametrik olmayan istatistiklerle ilgili çok sayıda yeni metin olduğunu göstermektedir. Örneğin: Parametrik Olmayan İstatistiksel Yöntemler (Hollander ve diğerleri, 2013), Parametrik Olmayan Hipotez Testleri: R'deki Uygulamalarla Sıralama ve Permütasyon Yöntemleri (Bonnini ve diğerleri, 2014), Parametrik Olmayan İstatistiksel Çıkarım, Beşinci Baskı (Gibbons ve Chakraborti, 2010). Çeşitli aramalarda ortaya çıkan birçok kişi var. Hiç sahip olmadığım için hiçbir öneride bulunamıyorum. Üzgünüm.
Avraham

5

Bu çok ilginç soruya cevap vermeye başladım.

Eşleştirilmemiş veriler için:

Morten W. Fagerland, Leiv Sandvik (ödeme duvarı arkasında) tarafından eşit olmayan değişkenlikteki çarpık dağılımlar için beş iki örneklem lokasyon testinin performansı, 5 farklı testle (t-testi, Welch U, Yuen-Welch, Wilcoxon-Mann) bir dizi deney gerçekleştirdi. -Whitney ve Brunner-Munzel) örneklem büyüklüğü, örneklem oranı, normallikten ayrılma vb. Gibi farklı kombinasyonlar için. Genel olarak Welch U düşündüren yazı bitti,

Ancak, makalenin A ekinde, her numune büyüklüğü kombinasyonunun sonuçları listelenmiştir. Ve küçük örneklem boyutları için (m = 10 n = 10 veya 25) sonuçları (beklendiği gibi) daha kafa karıştırıcı - in my sonuçları (değil yazarların) Welch U tahmininde, Brunner-Munzel aynı performansı görünüyor ve t-testi ayrıca m = 10 ve n = 10 da iyi durumda.

Şimdiye kadar bildiğim şey bu.

"Hızlı" bir çözüm için, Doktorların Araştırma Sonuçlarına İstatistiklerin Etkisi Üzerine Farkındalıklarını Arttırdığını: Patrick D Bridge ve Shlomo S Sawilowsky'nin Uygulamalı Araştırmalarındaki Küçük Örneklerde T-Testi ve Wilcoxon Rank-Sum Testinin Karşılaştırmalı Gücü (ayrıca ödeme duvarının arkasında) ve örneklem büyüklüğü ne olursa olsun doğrudan Wilcoxon'a gidin, ancak ihmal emptor , örneğin iki normal olmayan dağılımları karşılaştırırken her zaman parametrik olmayan bir test seçmeli miyiz? Eva Skovlund ve Grete U. Fensta .

Eşleştirilmiş veriler için henüz benzer bir sonuç bulamadım


Alıntıları takdir ediyorum! Açıklama için, "Welch U", "Welch t" veya "Welch-Aspin t" olarak da bilinen aynı test veya aynı zamanda (belki de soruda yanlış bir şekilde adlandırdığım gibi) "Welch düzeltmesiyle t testi" olarak adlandırılır. ?
Silverfish

Kağıttan anladığım kadarıyla, Welch U normal Welch-Aspin değil - Welch-Satterthwaite denklemini serbestlik dereceleri için kullanmıyor, küp ve numune karesi farkı olan bir formül kullanıyor boyut.
Jacques Wainer,

Adına rağmen yine de bir t testi var mı? Başka her yerde "Welch U" için arama yapıyorum, bunun sinir bozucu olan Welch-Aspin'e gönderme yaptığını görüyorum.
Silverfish


1

Gama popülasyonu araçlarının farkını simüle etmek

T testi ve Mann Whitney testi karşılaştırması

Sonuçların özeti

  • İki popülasyonun varyansı aynı olduğunda, Mann Whitney testi t-testinden daha büyük gerçek güce sahiptir, fakat aynı zamanda 1 büyük hataya da sahiptir.
  • Büyük örnek N = 1000 için Mann whitney testi için minimum gerçek tip 1 hatası% 9 iken, t-testi deney düzeneğinin gerektirdiği şekilde gerçek Tip 1% ( % 5'in altındaki p değerleri için reddedin )H0
  • İki popülasyonun varyansı farklı olduğunda, Mann Whitney testi, araçlar aynı olsa bile, büyük bir tip 1 hataya yol açar. Bu, Mann Whitney’in araçlardaki değil dağılımlardaki farklılığı test ettiği için bekleniyor.
  • T testi varyanstaki farklılıklara karşı dayanıklıdır ancak aynı yöntemler

Deney 1) Farklı araçlar, aynı varyans

İki gama dağılımları k (şekil) ve ölçek kullanılarak parametrize düşünün parametreleri ile,θ

  • X1 : ve olan gama, dolayısıyla ortalama ve varyansk=0.5θ=1E[X1]=kθ=0.5Var[X1]=kθ2=0.5
  • X2 : ve olan gama ve varyansk=1.445θ=0.588235 E[X2]=.85Var[X2]=.5

ve örneklerinden bir farklılık olup olmadığını test edeceğiz . Burada kurulum, ve aynı varyansa sahip olacak şekilde seçilmiştir , bu nedenle gerçek cohen d mesafesi 0.5'tir.X1X2X1X2

d=(.85.5)/.5=0.5

İki test yöntemini karşılaştıracağız: iki örnek t-testi ve Mann Whitney parametrik olmayan testi ve farklı örneklem büyüklüğü için bu Tiplerin Gerçek Tip I ve Gücünü simule edin ( değeri <0.05 için boş hipotezi reddettiğimizi varsayalım )p

  • H0:μX1=μX2=0.5
  • H1:μX1μX2

Gerçek tip 1 hatası şu şekilde hesaplanır: ve gerçek güç şu şekilde hesaplanır: . ve gerçek dağılımını kullanarak binlerce deneyi simüleP(reject|H0)P(reject|H1)H0H1

Kaynaklar:

Nüfus dağılımları

görüntü tanımını buraya girin

Simulasyon sonuçları

görüntü tanımını buraya girin

Tartışma

  • Beklendiği gibi, numune ortalaması normal olarak dağılım eğriliği ve kurtoz ile gösterildiği gibi küçük numune boyutu ( ) için dağılmaz. Daha büyük örneklem büyüklüğü için, dağılım yaklaşık normaldirN=10
  • Tüm örneklem büyüklükleri için Mann Whitney testi t testinden daha fazla güce sahiptir ve bazı durumlarda 2 kat
  • Tüm örneklem büyüklükleri için Mann Whitney testinde daha büyük bir tip I hatası var ve bu da bir faktör ya da 2 - 3
  • t-testi küçük örneklem büyüklüğü için düşük güce sahiptir

Tartışma : İki popülasyonun varyansı gerçekten aynı olduğunda, Mann Whitney testi, küçük örneklem büyüklüğü için güç açısından t-testinden büyük ölçüde daha iyi performans gösterir, ancak daha yüksek Tip 1 hata oranına sahiptir


Deney 2: Farklı varyanslar, aynı ortalama

  • X1 : ve olan gama, dolayısıyla ortalama ve varyansık=0.5θ=1E[X1]=kθ=.5Var[X1]=kθ2=.5
  • X2 : ve ile gamma ve varyansk=0.25θ=2 E[X2]=.5Var[X2]=1

Burada, bilgisayarı doğrulayamayacağız çünkü simülasyon gerçek senaryosunu içermiyor . Ancak ve olduğunda tip 1 hatasını hesaplayabiliriz.H1Var[X1]=Var[X2]Var[X1]Var[X2]

Tartışma Simülasyondan elde edilen sonuçlar, t-testinin farklı varyansa karşı çok sağlam olduğunu ve tüm numune boyutları için tip I hatasının% 5'e yakın olduğunu göstermektedir. Beklendiği gibi bu araçlarında ama bir farkın bir farkı test olmadığından, Mann Whitney testi bu durumda zayıf bir performans dağılımları

görüntü tanımını buraya girin

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.