İle ilgili soruların sırasını değiştireceğim.
Ders kitaplarını ve ders notlarını sık sık katılmıyorum ve sistemin en iyi uygulama olarak güvenle önerilebilecek bir seçim yapmasını ve özellikle bunun için belirtilebilecek bir ders kitabı veya makaleyi bulmasını istiyorum.
Ne yazık ki, bu konuda bazı tartışmalar kitaplarda vb. Bilgelikten kaynaklanmaktadır. Bazen alınan bilgelik makul olur, bazen daha azdır (en azından daha büyük bir problem göz ardı edildiğinde daha küçük bir konuya odaklanma eğiliminde olduğu anlamına gelir); Tavsiye için sunulan gerekçeleri (eğer herhangi bir gerekçe sunulmuşsa) dikkatle incelemeliyiz.
Bir t testi veya parametrik olmayan bir test seçmeye yönelik çoğu kılavuz normallik konusuna odaklanır.
Bu doğru, ancak bu cevapta ele almamın birkaç nedeni yüzünden yanlış yönlendirilmiş.
"İlişkisiz numuneler" veya "eşlenmemiş" t testi yapılırsa, bir Welch düzeltmesi kullanılıp kullanılmayacağı?
Bu (varyansların eşit olması gerektiğini düşünmek için bir nedeniniz yoksa kullanmak için) sayısız referansın tavsiyesidir. Bu cevabın bazılarına işaret ediyorum.
Bazı insanlar varyansların eşitliği için bir hipotez testi kullanır, ancak burada düşük güce sahip olur. Genel olarak, sadece örnek SD'lerin “makul derecede” yakın olup olmadıklarını göz önünde bulunduruyorum (bu biraz öznel, bu yüzden bunu yapmanın daha ilkeli bir yolu olmalı), ancak yine de düşük n ile popülasyon SD'lerinin daha ileri düzeyde olabileceğini düşünüyorum. örnek olanlar dışında.
Nüfus değişkenlerinin eşit olduğuna inanmak için iyi bir neden olmadıkça, basitçe Welch düzeltmesini her zaman küçük örnekler için kullanmak daha mı güvenlidir? Tavsiye budur. Testlerin özellikleri, varsayım testine dayanan seçimden etkilenir.
Bununla ilgili bazı referanslar burada ve burada görülebilir , ancak benzer şeyler söyleyenler var.
Eşitlik varyansı sorunu, normallik meselesine benzer birçok özelliğe sahiptir - insanlar bunu test etmek ister, tavsiyeler, testlerin sonuçları üzerindeki şartlı test seçiminin, her iki sonraki test türünün sonuçlarını olumsuz yönde etkileyebileceğini gösterir - ne olduğunu varsaymamak daha iyidir. Yeterince haklı çıkaramazsınız (veriyi düşünerek, aynı değişkenlerle ilgili diğer çalışmalardan gelen bilgileri kullanarak vb.)
Ancak, farklılıklar var. Birincisi - en azından null hipotezi altında test istatistiğinin dağılımı açısından (ve dolayısıyla seviyesinin sağlamlığı) - normalliğin normal olmaması büyük numunelerde (en azından önem seviyesi bakımından) daha az önemlidir. küçük etkiler bulmanız gerekiyorsa yine de bir sorun olabilir), eşit varyans varsayımı altında eşit olmayan varyansların etkisi gerçekten büyük örneklem büyüklüğü ile ortadan kalkmaz.
Numune boyutu "küçük" olduğunda en uygun testin hangisi olduğunu seçmek için hangi ilkeli yöntem önerilebilir?
Hipotez testlerinde önemli olan (bazı koşullar altında) öncelikle iki şeydir:
Ayrıca, iki işlemi karşılaştırırsak, ilkini değiştirmenin ikinciyi değiştireceğini (yani, aynı gerçek önem düzeyinde gerçekleştirilmezlerse, daha yüksek ile ilişkili olacağını beklememiz gerektiğini aklımızda tutmamız gerekir. daha fazla güç).α
Bu küçük örneklem sorunları göz önüne alındığında, t ile parametrik olmayan testler arasında karar verirken çalışılacak iyi - umarım kabul edilebilir - bir kontrol listesi var mı?
Hem normal olmama hem de eşitsiz varyans olasılığını göz önünde bulundurarak bazı önerilerde bulunacağım bazı durumları ele alacağım. Her durumda, Welch testini ima eden t-testinden bahsedin:
Normal olmayan (veya bilinmeyen), neredeyse eşit varyansa sahip olma olasılığı:
Eğer dağılım ağır kuyrukluysa, genellikle bir Mann-Whitney ile daha iyi olursunuz, bununla birlikte sadece biraz ağırsa, t testi yeterli olur. Hafif kuyruklarda t-testi (sıklıkla) tercih edilebilir. Permütasyon testleri iyi bir seçenektir (eğer böyle bir eğilim varsa, t-istatistiği kullanarak bir permütasyon testi bile yapabilirsiniz). Önyükleme testleri de uygundur.
Normal olmayan (veya bilinmeyen), eşitsiz varyans (veya bilinmeyen varyans ilişkisi):
Eğer dağılım ağır kuyruklu ise, genellikle bir Mann-Whitney ile daha iyi olursunuz - eğer varyans eşitsizliği sadece ortalamanın eşitsizliği ile ilgiliyse - yani H0 doğruysa, dağılımdaki fark da olmamalıdır. GLM'ler genellikle iyi bir seçenektir, özellikle de çarpıklık ve yayılma varsa ortalamayla ilişkilidir. Permütasyon testi, rütbe bazlı testlerde olduğu gibi benzer bir uyarıya sahip bir başka seçenektir. Bootstrap testleri burada iyi bir olasılık.
Zimmerman ve Zumbo (1993) , varyansların eşit olmadığı durumlarda Wilcoxon-Mann-Whitney'den daha iyi performans gösterdiklerini söyleyen rütbelere Welch-t testi önermektedir.[1]
Eğer normal olmama durumu (yine yukarıdaki ihtarla) beklediğiniz takdirde rütbe testleri makul varsayılanlardır. Şekil veya sapma hakkında dış bilginiz varsa, GLM'leri düşünebilirsiniz. İşlerin normalden çok uzak olmamasını düşünüyorsanız, t-testleri iyi olabilir.
Uygun anlamlılık seviyelerinin elde edilmesindeki problem nedeniyle, ne permütasyon testleri ne de rütbe testleri uygun olmayabilir ve en küçük boyutlarda, bir t-testi en iyi seçenek olabilir (biraz sağlamlaştırma olasılığı vardır). Ancak, küçük örneklerle daha yüksek tip I hata oranlarını kullanmanın iyi bir argümanı vardır (aksi halde tip I hata oranlarını sabit tutarken tip II hata oranlarının artmasına izin veriyorsunuz). Ayrıca bkz. De Winter (2013) .[2]
Tavsiyeler, dağılımların hem eğriltilmiş hem de çok farklı olduğu durumlarda, gözlemlerin çoğunun son kategorilerden birinde yer aldığı Likert ölçekli maddeler gibi, biraz değiştirilmelidir. O zaman Wilcoxon-Mann-Whitney'nin mutlaka t-testinden daha iyi bir seçim olması gerekmez.
Simülasyon, olası durumlar hakkında bir bilginiz olduğunda seçimlerin daha da yönlendirilmesine yardımcı olabilir.
Bunun çok yıllık bir konu olduğu için minnettarım, ancak çoğu soru, sorgunun özel veri kümesini, bazen daha genel bir güç tartışmasını ve bazen iki testin aynı fikirde olmadığı durumlarda ne yapılacağını ilgilendiriyor. ilk etapta!
Asıl sorun, küçük bir veri setinde normallik varsayımını kontrol etmenin ne kadar zor olduğudur:
İse küçük bir veri seti durumun normale kontrol edin ve önemli bir konu bir ölçüde zor, ama biz dikkate almak gerekir önem başka bir sorun var. Temel bir sorun, normalliği testler arasında seçim yapmanın temeli olarak değerlendirmeye çalışmanın, seçtiginiz testlerin özelliklerini olumsuz yönde etkilemesidir.
Herhangi bir normallik testinin düşük güce sahip olması dolayısıyla ihlallerin tespit edilememesi olasıdır. (Şahsen bu amaç için test yapmam ve net bir şekilde yalnız değilim, ancak müşterilerim bir normallik testi yapılmasını istediğinde bu çok az kullanım buldum çünkü bu onların ders kitabı veya eski ders notları veya bir keresinde buldukları bazı web siteleri. ilan edilmesi gerekiyor. Bu, daha ağır görünen bir alıntı yapılmasının memnuniyetle karşılanacağı bir nokta.)
İşte net olmayan bir referans örneği (diğerleri var): (Fay ve Proschan, 2010 ):[3]
T- ve WMW DR'ler arasındaki seçim, bir normallik testine dayanmamalıdır.
Onlar benzer şekilde, varyans eşitliği için test yapmama konusunda da açık değildir.
Daha da kötüsü, Merkezi Limit Teoremini bir güvenlik ağı olarak kullanmak güvenli değildir: küçükler için test istatistiğinin ve dağılımının uygun asimptotik normalliğine güvenemeyiz.
Büyük örneklerde bile - payın asimptotik normalliği, t-istatistiklerinin t dağılımına sahip olacağı anlamına gelmez. Bununla birlikte, bu kadar önemli olmayabilir, çünkü hala asimptotik normallik göstermelisiniz (örn. Pay için CLT ve Slutsky teoremi, her ikisi için de şartlar geçerliyse, sonunda t-istatistiğinin normal görünmeye başlaması gerektiğini önerir).
Buna verilen ilke cevaplardan biri "önce güvenlik" dir: küçük bir örneklemin normallik varsayımını güvenilir bir şekilde doğrulamanın bir yolu olmadığından eşdeğer bir parametrik olmayan test uygulayın.
Bu aslında bahsettiğim referansların (veya bahsettiğimiz bağlantıların) verdiği tavsiye.
Gördüğüm, ancak daha az rahat hissettiğim bir başka yaklaşım ise, görsel bir kontrol yapmak ve eğer istenmeyen bir şey gözlenmezse ("normalliği reddetmek için bir sebep yok", bu kontrolün düşük gücünü göz ardı ederek) t testi ile devam etmektir. Benim kişisel eğilimim, normallik varsayımı için herhangi bir gerekçe olup olmadığını, teorik (ör. Değişken birkaç rastgele bileşenin toplamıdır ve CLT'nin geçerli olduğunu) veya deneysel (örneğin n'nin daha büyük n değişkenini içeren önceki çalışmaların normal olduğunu) düşünmemdir.
İkisi de iyi argümanlardır, özellikle t-testinin normallikten ılımlı sapmalara karşı makul derecede sağlam olduğu gerçeğiyle desteklendiğinde. (“Ilımlı sapmaların” aldatıcı bir ifade olduğu akılda tutulmalıdır; normallikten kaynaklanan bazı sapmalar, bu sapmalar görsel olarak çok küçük olsa bile, t-testinin güç performansını oldukça etkileyebilir. Test bazı sapmalara diğerlerinden daha az sağlamdır. Normalden küçük sapmalardan bahsederken bunu aklımızda tutmalıyız.)
Bununla birlikte, "değişkene normal olduğunu öner" ifadesine dikkat edin. Normallik ile makul bir şekilde tutarlı olmak normallikle aynı şey değildir. Verileri görmeye bile gerek kalmadan gerçek normalliği reddedebiliriz - örneğin, eğer veriler negatif olamazsa, dağılım normal olamaz. Neyse ki, önceki çalışmalardan ya da verinin nasıl oluşturulduğuna dair gerekçelerden ne olabileceğimize daha yakın olan şey, normalden sapmaların küçük olması gerektiğidir.
Öyleyse, veriler görsel incelemeden geçerse bir t-testi kullanır, aksi takdirde parametrik olmayanlara sadık kalırdım. Ancak herhangi bir teorik veya ampirik gerekçeler genellikle sadece yaklaşık normallik varsayımını haklı çıkarmaktadır ve düşük serbestlik derecelerinde, bir t-testini geçersiz kılmamak için ne kadar normal olması gerektiğine karar vermek zordur.
Bu, oldukça kolay bir şekilde etkisini değerlendirebileceğimiz bir şey (daha önce de bahsettiğim gibi simülasyonlar gibi). Gördüklerime göre, eğriltme, ağır kuyruklardan daha önemli gibi gözüküyor (ancak diğer taraftan tam tersi iddialar görmüştüm.
Yöntem seçimini güç ve sağlamlık arasında bir takas olarak gören insanlar için, parametrik olmayan yöntemlerin asimptotik etkinliği hakkındaki iddialar yararsızdır. Örneğin, "Wilcoxon testleri, eğer veriler gerçekten normalse t-testinin gücünün% 95'ine sahiptir ve veriler değilse genellikle çok daha güçlüdür, bu nedenle sadece bir Wilcoxon kullanın" duydum, ancak% 95 yalnızca büyük n için geçerliyse, bu daha küçük numuneler için hatalı bir sebeptir.
Fakat küçük örneklem gücünü kolayca kontrol edebiliriz! Burada olduğu gibi güç eğrileri elde etmek için simülasyon yapmak kolaydır .
(Yine, ayrıca bkz. Winter (2013) ).[2]
Hem iki örneklemli hem de tek örneklemli / çift örneklemeli durumlar için çeşitli koşullar altında bu tür simülasyonları yaptıktan sonra, her iki durumda da normaldeki küçük örneklem verimliliği, asimptotik verimden biraz daha düşük görünmektedir, ancak etkinlik İmzalı rütbe ve Wilcoxon-Mann-Whitney testleri çok küçük örneklem boyutlarında bile hala çok yüksektir.
En azından testler aynı gerçek önem düzeyinde yapılırsa; çok küçük numunelerle% 5 test yapamazsınız (ve en azından örneğin randomize testler olmadan), ama belki de% 5.5 veya% 3.2 testine hazırsanız (o zaman rütbe testleri) Bu anlamlılık düzeyinde bir t-testi ile karşılaştırıldığında gerçekten çok iyi tutun.
Küçük numuneler, bir dönüşümün veri için uygun olup olmadığını değerlendirmeyi zorlaştırabilir veya imkansız hale getirebilir, çünkü dönüştürülen verilerin (yeterince) normal bir dağılıma ait olup olmadığını söylemek zor. Eğer bir QQ grafiği, günlükleri aldıktan sonra daha makul görünen çok pozitif eğri verileri ortaya çıkarırsa, kaydedilen veriler üzerinde bir t-testi kullanmak güvenli midir? Daha büyük örneklerde bu çok cazip gelebilirdi, ancak küçük n ile muhtemelen ilk etapta log-normal bir dağılım beklemek için gerek yoktu.
Başka bir alternatif var: farklı bir parametrik varsayım yapın. Örneğin, çarpık veri varsa, örneğin, bazı durumlarda makul bir şekilde bir gama dağılımını veya başka bir çarpık aileyi daha iyi bir yaklaşım olarak düşünebilirsiniz - orta derecede büyük örneklerde, yalnızca bir GLM kullanabiliriz, ancak çok küçük örneklerde Küçük örneklem testine bakmak gerekli olabilir - çoğu durumda simülasyon faydalı olabilir.
Alternatif 2: t-testini sağlamlaştırın (ancak test istatistiğinin sonuç dağılımını ağır şekilde mahvetmemek için sağlam prosedür seçimine dikkat edin) - bu, kabiliyet gibi çok küçük örneklemeli parametrik olmayan bir prosedür üzerinde bazı avantajlara sahiptir. Düşük tip I hata oranına sahip testleri dikkate almak.
Burada t-istatistiğindeki yerin M-tahmin edicilerinin (ve ilgili ölçek tahmin edicilerinin) normallikten sapmalara karşı yumuşak bir şekilde sağlamlaştırmak için kullanılma çizgileri boyunca düşünüyorum. Welch'e benzer bir şey:
x∼−y∼S∼p
burada ve , etc sırasıyla konum ve ölçeğin sağlam tahminleridir.S∼2p=s∼2xnx+s∼2ynyx∼s∼x
İstatistiğin herhangi bir eğilimine olan eğilimini azaltmayı hedeflerdim - bu nedenle kesim ve Winsorizing gibi şeylerden kaçınırdım çünkü orijinal veriler ayrık olsaydı, kesim vb. M-tahmini türü yaklaşımlarını sorunsuz bir işleviyle kullanarak, ayrıcalığa katkıda bulunmadan benzer etkiler elde edersiniz. gerçekten çok küçük olduğu durumlarla (örneğin her örnekte 3-5 civarında) başa çıkmaya çalıştığımızı unutmayın , bu nedenle M-tahminde bile potansiyel olarak sorunlar vardır.ψn
Örneğin, p değerlerini elde etmek için normalde simülasyonu kullanabilirsiniz (örnek boyutları çok küçükse, önyüklemenin aşırı yapılmasını öneririm - örnek boyutları çok küçük değilse, dikkatlice uygulanan bir önyükleme oldukça iyi olabilir. ama sonra da Wilcoxon-Mann-Whitney'e geri dönebiliriz. Tahmin edebileceğim şeyi elde etmek için bir df ayarının yanı sıra bir ölçeklendirme faktörü de var ve makul bir t-yaklaşımı olacak. Bu, normale çok yakın aradığımız özellikleri almalı ve normalin geniş çevresinde makul sağlamlığa sahip olmalıyız. Bu sorunun kapsamı dışında kalan bir takım meseleler var, ancak çok küçük örneklerde faydaların maliyetleri ve gereken ekstra çabayı geçmesi gerektiğini düşünüyorum.
[Bu konuyla ilgili literatürü çok uzun zamandır okumadım, bu yüzden bu konuda teklif edecek uygun referanslarım yok.]
Elbette, dağılımın biraz normal görünmesini beklemiyorsanız, fakat diğer bazı dağıtımlara benzer olmasını beklemiyorsanız, farklı bir parametrik test için uygun bir sağlamlaştırma işlemi gerçekleştirebilirsiniz.
Parametrik olmayanlara ilişkin varsayımları kontrol etmek istiyorsanız? Bazı kaynaklar, normallik kontrolünde benzer problemler ortaya çıkaran bir Wilcoxon testi uygulanmadan önce simetrik bir dağılımın doğrulanmasını tavsiye eder.
Aslında. Sanırım imzalı rütbe testi * demek istiyorsun. Eşleştirilmiş veriler üzerinde kullanılması durumunda, iki dağılımın konum kaymasından ayrı olarak aynı şekilde olduğunu varsaymaya hazırsanız, farklar simetrik olması gerektiği için emniyette olursunuz. Aslında o kadar da ihtiyacımız yok; Testin çalışması için sıfırın altında simetriye ihtiyacınız vardır; alternatif kapsamında gerekli değildir (örneğin, ölçeklerin alternatif altında farklı olduğu, ancak null altında olmadığı, pozitif yarım çizgi üzerinde aynı şekilde sağa eğik sürekli dağılımlara sahip eşleştirilmiş bir durumu göz önünde bulundurun; O vaka). Alternatif olsa da bir yer kayması ise testin yorumlanması daha kolaydır.
* (Wilcoxon'un adı hem bir hem de iki örnek sıralama testi ile ilişkilidir - imzalanmış derece ve derece toplamı; U testi ile Mann ve Whitney, Wilcoxon tarafından çalışılan durumu genelleştirmiş ve boş dağılımın değerlendirilmesi için önemli yeni fikirler getirmiştir. Öyle görünüyor ki, ancak bu kadar en azından biz sadece Mann & Whitney vs Wilcoxon düşünülürse, Wilcoxon kitabımda ilk gider -. Wilcoxon-Mann-Whitney üzerindeki yazarların iki takım arasındaki öncelik açıkça Wilcoxon en olduğunu Stigler'in Kanunu yine beni aşar, ve Wilcoxon belki de bu önceliğin bir kısmını daha önce katkıda bulunanlar ile paylaşmalı ve (Mann ve Whitney dışında) eşdeğer bir testin birkaç keşfi ile kredi paylaşmalıdır. [4] [5])
Referanslar
[1]: Zimmerman DW ve Zumbo BN, (1993),
Rank dönüşümleri ve normal olmayan popülasyonlar için Öğrenci t-testi ve Welch t′-testinin gücü,
Kanada Dergisi Deneysel Psikoloji, 47 : 523-39.
[2]: JCF de Winter (2013),
"Öğrenci t-testini son derece küçük örneklem büyüklüğünde kullanma",
Pratik Değerlendirme, Araştırma ve Değerlendirme , 18 : 10, Ağustos, ISSN 1531-7714
http://pareonline.net/ ? getvn.asp h = 18 ve n = 10
[3]: Michael P. Fay ve Michael A. Proschan (2010),
"Wilcoxon-Mann-Whitney veya t-testi? Hipotez testleri için varsayımlar ve karar kurallarının çoklu yorumları"
Stat Surv ; 4 : 1–39.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/
[4]: Berry, KJ, Mielke, PW ve Johnston, JE (2012),
"İki Örnekli Sıra Toplamı Testi: Erken Gelişim,"
Olasılık ve İstatistik Tarihi Elektronik Dergisi , Cilt 8, Aralık
pdf
[5]: Kruskal, WH (1957),
"Wilcoxon eşleşmemiş iki örneklem testi ile ilgili tarihsel notlar,"
Amerikan İstatistik Kurumu Dergisi , 52 , 356-360.