Eşleştirilmemiş t testi için minimum örnek boyutu


16

Bir t-testinin geçerli olması için gereken minimum numune boyutunu belirlemek için bir "kural" var mı?

Örneğin, 2 popülasyon ortalaması arasında bir karşılaştırma yapılması gerekir. Bir popülasyondan 7 veri noktası ve diğerinden sadece 2 veri noktası vardır. Ne yazık ki, deney çok pahalı ve zaman alıcıdır ve daha fazla veri elde etmek mümkün değildir.

Bir t testi kullanılabilir mi? Neden ya da neden olmasın? Lütfen ayrıntıları belirtin (popülasyon sapmaları ve dağılımları bilinmemektedir). Eğer bir t-testi kullanılamıyorsa, parametrik olmayan bir test (Mann Whitney) kullanılabilir mi? Neden ya da neden olmasın?


2
Bu soru benzer materyalleri kapsıyor ve bu sayfayı görüntüleyenlerin ilgisini çekecek: t-testinin geçerli olması için gerekli minimum örnek büyüklüğü var mı? .
gung - Monica'yı eski durumuna getirin

Daha küçük numune boyutları ile bile testin tartışıldığı bu soruya bakın .
Glen_b -Monica Monica'yı ziyaret et

Yanıtlar:


8

Burada eşleştirilmemiş bir t testi yerine parametrik olmayan Mann-Whitney U testinin kullanılmasını tavsiye ederim .

T testi için mutlak minimum örnek boyutu yoktur , ancak örnek boyutları küçüldükçe, test her iki örneğin de normal dağılıma sahip popülasyonlardan alındığı varsayımına daha duyarlı hale gelir. Bu küçük örneklerle, özellikle sadece iki örnekle, nüfus dağılımlarının normal olduğundan ve dış bilgiye dayalı olması gerektiğinden emin olmanız gerekir, çünkü bu küçük örnekler kendi içlerinde çok az bilgi verir normalliği veya başka türlü dağılımları. Ama diyorsunuz ki "nüfus sapmaları ve dağılımları bilinmemektedir" (italiklerim).

Mann-Whitney U testi dağılımların parametrik formu hakkında herhangi bir varsayım gerektirmez, sadece iki grubun dağılımlarının sıfır hipotezi altında aynı olduğu varsayımını gerektirir.


6
Çok küçük numune boyutları için iyi bir öneri değildir. 7 ve 2 örnekle, grupların ortalaması arasındaki fark ne olursa olsun, U testi başarısız olacaktır. Bir örnek için cevabıma bak.
AlefSin

2
@AlefSin'in söylediklerini ikinci yapardım. Geçerli sonuçlar çıkarmanız önemliyse (ve sadece bir p değeri elde etmek için değil), daha resonable varsayımlar daha iyi olabilir. Makul bir arka plan bilgisi varsa, analizinizi Bayesci bir çerçevede yaptıysanız daha da fazla varsayım ekleyebilirsiniz.
Rasmus Bååth

2
Bir sorun, bu kadar küçük numune boyutlarında, Wilcoxon-Mann-Whitney'in tipik önem seviyelerine ulaşamamasıdır. 7 ve 2 örnek boyutlarıyla, fark ne kadar açık olursa olsun hiçbir zaman% 5 düzeyinde önemli bir sonuç elde edemezsiniz. (1.018,1.031,1.027,1.020,1.021,1.019,1.024) vs (713.2, 714.5) -% 5 düzeyinde anlamlı değil!
Glen_b

3
n1=7n2=2

6

(sorumluluk reddi: Bugün iyi yazamıyorum: sağ elim kırık!)

Diğer cevaplarda parametrik olmayan bir test kullanma tavsiyesinin aksine, çok küçük örnek boyutları için bu yöntemlerin çok yararlı olmadığını düşünmelisiniz. Nedenini anlamak kolaydır: Çok küçük boyutlu çalışmalarda, gözlemlenirse büyük bir etki büyüklüğü olmadığı sürece gruplar arasında fark kurulamaz. Bununla birlikte parametrik olmayan yöntemler, gruplar arasındaki farkın büyüklüğünü umursamıyor. Böylece, iki grup arasındaki fark çok büyük olsa da, küçük bir örneklem büyüklüğü ile parametrik olmayan bir test her zaman sıfır hipotezini reddetmekte başarısız olacaktır.

Bu örneği ele alalım: iki grup, normal dağılım, aynı varyans. Grup 1: ortalama 1.0, 7 örnek. Grup 2: ortalama 5, 2 numune. Ortalamalar arasında büyük bir fark vardır.

wilcox.test(rnorm(7, 1), rnorm(2, 5))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 5)
W = 0, p-value = 0.05556

Hesaplanan p değeri, sıfır hipotezini (0.05'te) reddetmeyen 0.05556'dır. Şimdi, iki yol arasındaki mesafeyi 10 kat artırsanız bile, aynı p değerini alırsınız:

wilcox.test(rnorm(7, 1), rnorm(2, 50))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 50)
W = 0, p-value = 0.05556

Şimdi sizi aynı simülasyonu t-testi ile tekrarlamaya ve büyük (ortalama 5'e 1) ve büyük (ortalama 50'e 1) farklılıklar durumunda p değerlerini gözlemlemeye davet ediyorum.


5

Bir t-testi için minimum örnek boyutu yoktur; t-testi aslında küçük numuneler için tasarlanmıştır. Tabloların yazdırıldığı eski günlerde, çok küçük numuneler için t-test tabloları gördünüz (df ile ölçüldüğü gibi).

Elbette, diğer testlerde olduğu gibi, küçük bir örnek varsa, sadece oldukça büyük bir etki istatistiksel olarak anlamlı olacaktır.


Fakat bunun tersi de bir sorun olacak mı? Yani, örneklenmekte olan aykırı değerler sıfır hipotezini yanlış reddetmeye yol açabilir mi? Yoksa farkları tespit etmek için düşük güç daha büyük bir problem midir? Bu özel durumda, araçlar arasında önemli bir fark görüyorum ama ne kadar "güveneceğine" bilmiyorum.
Johnny

2
N = 2 ile, aykırı değerlerin etkisine kesinlikle karşı savunmasızsınız - nüfus içindeki aykırı değerler; 2 numunesinin örnek içinde nasıl bir aykırı değeri olabilir? :-) Bu durumda herhangi bir çıkarımsal istatistik denemem. Beklentiler "gerçeğe" ulaşmak için fakirdir ve kendinizi eleştiriye açık bırakacaksınız.
rolando2

2
Güven aralığının geniş olmasının nedeni tam olarak bir aykırı değer alabilmenizdir. Ancak t-testi hala örneklerin normal popülasyondan geldiğini varsayar.
Peter Flom - Monica'yı eski durumuna döndürün

2

Bir gruptan 7 veri noktanız olduğunu ve her ikisinin de popülasyon alt kümeleri olan (örneğin erkeklerin alt kümesi ve kadınların alt kümesi) 2 veri noktasının olduğunu kastediyorum.

T-testi için matematik bu Wikipedia sayfasından elde edilebilir . Eşit olmayan örnek boyutları (7'ye 2) ve eşit olmayan varyansları olan bağımsız bir iki örnekli t testi yapacağız, bu yüzden bu sayfanın yaklaşık yarısında. Hesaplamanın ortalamalara ve standart sapmalara dayandığını görebilirsiniz. Bir grupta sadece 7, diğerinde 2 konu olduğunda, ortalama veya standart sapma için iyi tahminlerin olduğunu varsayamazsınız. 2 denekli grup için ortalama, iki veri noktasının tam ortasında yer alan değerdir, bu yüzden iyi tahmin edilmemiştir. 7 deneği olan grup için örnek büyüklüğü varyansları (ve dolayısıyla varyansın kare kökü olan standart sapmaları) güçlü bir şekilde etkiler, çünkü aşırı değerler daha küçük bir örneğiniz olduğunda çok daha güçlü bir etki gösterir.

Örneğin, standart sapma için Wikipedia sayfasındaki temel örneğe bakarsanız , standart sapmanın 2 olduğunu ve varyansın (standart sapmanın karesi) 4 olduğunu göreceksiniz. Ancak, yalnızca ilk iki veri noktasına sahipsek (9 ve 1), varyans 10/2 = 5 ve standart sapma 2.2 olur ve eğer sadece son iki değere sahip olsaydık (4 ve 16), varyans 20/2 = 10 olur ve standart sapma 3.2 olur. Hala aynı değerleri kullanıyoruz, sadece daha azını ve tahminlerimiz üzerindeki etkisini görebiliyoruz.

Küçük örnek büyüklükleri ile çıkarımsal istatistiklerin kullanılmasıyla ilgili sorun budur, sonuçlarınız özellikle örneklemeden güçlü bir şekilde etkilenecektir.

Güncelleme: Sonuçları konuya göre raporlayamamanızın ve bunun keşif çalışması olduğunu belirtmemizin bir nedeni var mı? Sadece iki vaka ile, veriler bir vaka çalışmasına çok benzemektedir ve bunların her ikisi de (1) yazmak ve (2) kabul edilmiş uygulama için önemlidir.


Teşekkürler Michelle. Bunu bilmek ilginç ve faydalıdır. Ancak, pratik açıdan ne önerirsiniz? Bu durum göz önüne alındığında, devam etmenin en iyi yolu nedir? Teşekkürler!
Johnny

Merhaba Johnny Puzzled. Kesin durumunuz hakkında daha fazla bilgi olmadan daha fazla rehberlik veremiyorum.
Michelle

Ne tür bilgiye ihtiyaç var?
Johnny

1
Merhaba, çalışma tasarımınız hakkında verilerinizin ne olduğu, nasıl topladığınız, gruplarınızın ne olduğu, gözlemlerin nasıl seçildiği gibi daha fazla bilgi. Tek bildiğim, iki gruptan 9 gözlem (bir insanın sıçan? Nöron? Peynir blokları? Radyasyon frekansları?) İle bir deney yaptığınızdır.
Michelle

Diyelim ki beyindeki beyaz maddeye ortalama kan akışı MRI kullanan insanlarda ölçüldü. Gruplar kontrol grubu (7 kişi) ve belirli bir bozukluğu olan yaş / cinsiyet uyumlu hastalar (2 kişi).
Johnny

1

İlginç ilgili makale: 'Öğrencinin t-testini son derece düşük samlpe boyutlarında kullanma' JCF de Winter (Pratik Değerlendirme, Araştırma ve Değerlendirme) http://goo.gl/ZAUmGW


0

Elde ettiğiniz sonuçları, t testi ve Mann-Whitney testi ile karşılaştırmanızı ve ayrıca kutu grafiklerine ve her nüfusun ortalamasının profil olasılığına bir göz atmanızı öneririm.


Merhaba @ Demian, bir grup 2 örnek boyutu olduğunda bile bir boxplot bile yardımcı olacağından emin değilim. Aksi takdirde, evet özellikle boxplots gruplar arasında sürekli verileri görselleştirmek çok yararlı olduğunu düşünüyorum.
Michelle

0

Bir bootstrap testi için Stata 13 / SE koduKüçük numuneler üzerinde yapılan bir test muhtemelen test gereksinimlerini (esas olarak, iki örneğin arı çektiği popülasyonların normalliği) karşılamadığından, Efron B'den sonra, (eşit olmayan varyanslarla) bir bootstrap testi (tavsiye edilmeyen varyanslarla), Tibshirani Rj. Bootstrap'a Giriş. Boca Raton, FL: Chapman & Hall / CRC, 1993: 220-224. Stata 13 / SE'de Johnny Puzzled tarafından sağlanan veriler üzerinde bir bootstrap testi kodu yukarıdaki resimde belirtilmiştir.


Cevabınızda ciddi biçimlendirme sorunları var, düzenlemeyi düşünür müsünüz?
amip diyor Reinstate Monica

Yanıtın gözden geçirilmiş sürümünde biçimlendirme sorunlarını çözmeye çalıştım. Bunu işaret ettiği için amip için teşekkürler.
Carlo Lazzaro

0

Örneklem büyüklüğü 2 olduğunda, yapılacak en iyi şey, bireysel sayılara kendileri bakmak ve hatta istatistiksel analizle uğraşmamak olabilir.


1
Şu anda bu daha çok bir yorum gibi okuyor. Bu iyi bir nokta olmakla birlikte, asıl soruna makul bir cevap için, nihayetinde başka bir şey yapmanın daha mantıklı olduğu sonucuna varsa bile, konunun kendisiyle ilgili bazı tartışmalar beklenebilir.
Glen_b -Monica Monica'yı
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.