Örnek boyutu küçükse, t testinin önemli bir sonucuna güvenebilir miyim?


17

Tek taraflı t-test sonucum anlamlıysa ancak örneklem boyutu küçükse (örneğin 20 yaşın altında), yine de bu sonuca güvenebilir miyim? Değilse, bu sonucu nasıl ele almalı ve / veya yorumlamalıyım?



8
Sadece bir yorum, aşağıdaki harika yorumlara eklemek istemiyorum; bir t-testinin sonucuna güvenmezseniz, prosedürün kendisine güvenirsiniz. Bireysel sonuç doğru veya yanlıştır, ancak daha fazla araştırma yapılmadan hangisini asla bilemezsiniz. Varsayımlar karşılandığında Fisher'in metodolojisinde veya Pearson ve Neyman'ın metodolojisinde bir t testi güvenilirdir. Eğer ayarlarsanız o zaman belki biraz daha az, sonsuz tekrarı üzerine, zamanın en fazla 5% sizi aldatmasın edecektir. Sormanız gereken soru "varsayımlar karşılanıyor mu?" α<.05
Dave Harris

Yanıtlar:


15

Teoride, t-testinin tüm varsayımları doğruysa, küçük bir örneklem büyüklüğü ile ilgili bir sorun yoktur.

Uygulamada, büyük örnek büyüklükleri için ortadan kaldırabileceğimiz bazı gerçek olmayan varsayımlar vardır, ancak küçük örnek büyüklükleri için sorunlara neden olabilirler. Temel dağılımın normal olarak dağıtılıp dağıtılmadığını biliyor musunuz? Tüm numuneler bağımsız mı ve özdeş dağılmış mı?

Testin geçerliliğinden şüphe ediyorsanız, kullanabileceğiniz bir alternatif önyükleme yapmaktır. Önyükleme, sıfır hipotezinin ne sıklıkta doğru veya yanlış olduğunu görmek için örneğinizden yeniden örneklemeyi içerir. Belki de sıfır hipoteziniz ve p değeriniz 0.05'tir, ancak önyükleme, örnek ortalamanın zamanın% 10'undan daha az olduğunu gösterir. Bu, p değerinin 0,05'e neden olan bir fluke olduğunu gösterir ve sıfır hipotezinin yanlış olduğundan daha az emin olmalısınız.μ<0


1
Örneğin, temeldeki dağılımın kabaca normal bir dağılım olduğunu ve numunelerinizin 10 tanesinin belirli bir değerden daha az olduğunu biliyorsanız, açıkça popülasyon ortalamasının bu değerden daha yüksek olma olasılıkları 2 ^ 10'da en fazla birdir, veya binde bir. Normalde dağılmış bir popülasyondan on numunenin hepsinin ortalamanın aynı tarafında olması açıkça 2 ila 10 arasında bir şanstır. Sorun, güvenilir sonuçlar elde etmeniz olacak, ancak çok zayıf olacaklar - "ortalama yetişkin erkek yüksekliği neredeyse kesinlikle 5 ila 7 feet arasında" gibi.
David Schwartz

Açıklama ve alternatif yaklaşım için çok teşekkürler. Onları gerçekten takdir ediyorum! Çok teşekkürler!
Eric

Bootstrapping önerinizi almıyorum. Örnekten yeniden örneklerseniz (p <0.05 olan), bootstrap örneklerinin çoğunun önemli bir sonuç almasını beklersiniz, belki% 95,% 5 veya% 10 değil. Lütfen biraz açıklayabilir misiniz? Cc'den @Eric'e.
amip diyor Reinstate Monica

3
Daha genel bir açıklama olarak, bootstrap büyük örneklerde iyi çalışır, ancak küçük örneklerde kapsama alanı nominal değerden biraz farklı olabilir. Ayrıca, çok düşük örneklem büyüklüğü ile güç düşüktür. Dolayısıyla, bir "bootstrap testinin" her zaman t testinden daha üstün olduğu doğru değildir.
amip diyor Reinstate Monica

3
@ amoeba Düzeltme tarzınızı gerçekten seviyorum. Bana neyin doğru / neyin yanlış olduğunu söylemedin, fikirlerimin garip bir sonucuna dikkat çektin ve cevabımı yeniden düşünmemi ve hatanın kaynağını anlamamı sağladın. Bunun için teşekkürler! Geçmişte Whuber bunu da bana yaptı
Hugh

21

Herhangi bir önemli sonuca nadiren güvenmelisiniz. Neden iki kuyruklu bir test yerine tek kuyruklu bir test kullandığınızı söylemediniz, umarım bunu yapmak için istatistiksel olarak anlamlı bir sonuç talep edebilmek dışında iyi bir nedeniniz vardır!

Bunu bir kenara koyun, s. 261, Sauro, J. ve Lewis, JR (2016). Kullanıcı Deneyiminin Nicelleştirilmesi: Kullanıcı Araştırması için Pratik İstatistikler, 2. Baskı .. Cambridge, MA: Morgan-Kaufmann.


Ronald Fisher p değerlerini kullanmayı nasıl önerdi?

Karl Pearson istatistiklerin büyük yaşlı adamı ve Ronald Fisher göreceli bir yeni oyuncu olduğunda, görünüşte Fisher'ın fikirleri ve matematiksel yeteneği tarafından tehdit edilen Pearson, Fisher'ın zamanın büyük istatistik dergilerinde yayınlanmasını önlemek için etkisini kullandı, Biometrika ve Journal Kraliyet İstatistik Derneği. Sonuç olarak, Fisher fikirlerini Tarım ve Meteoroloji dergileri gibi başka yerlerde de yayınladı. Bu ikinci derginin makalelerinden birinde, şimdi kabul edilebilir Tip I hatası (alfa) olarak adlandırdığımız şeyi 0.05 olarak belirleme kuralından bahsetti ve eleştirel olarak, beklenmedik bir önemli sonuçla karşılaşıldığında tekrarlanabilirliğin öneminden de bahsetti:

Bir gözlem, aradığımız türden gerçek bir nedenin yokluğunda, nadiren üretilirse, anlamlı olarak değerlendirilir. Yirmi denemede bir kereden fazla sık rastlanmayacak kadar büyük bir sonuç varsa, önemli bir sonucu yargılamak yaygın bir uygulamadır. Bu, pratik araştırmacı için keyfi, ancak uygun bir önem düzeyidir, ancak her yirmi deneyde bir kez aldatılmasına izin verdiği anlamına gelmez. Anlamlılık testi ona sadece neyin göz ardı edileceğini söyler, yani önemli sonuçların elde edilmediği tüm deneyler. Bir fenomenin sadece bir deneyin nasıl tasarlanacağını bildiğinde deneysel olarak kanıtlanabilir olduğunu iddia etmelidir, böylece nadiren önemli bir sonuç vermez. Sonuç olarak, nasıl çoğaltılacağını bilmediği izole edilmiş önemli sonuçlar ileri araştırmalar yapılmak üzere askıda bırakılır. (Fisher, 1929, s.191)

Referans

Fisher, RA (1929). Psişik araştırmalarda istatistiksel yöntem. Psişik Araştırmalar Derneği Bildiriler Kitabı, 39, 189-192.


2
Fisher ayrıca Eugenics Annals'ta maksimum olasılık tahminini yeniden düzenleyen birkaç önemli makale yayınladı. Yöntemi genellikle Karl Pearson'un kullandığı anlardan daha iyiydi. Fisher yönteme dayanaklı çıkarım dedi. Daha sonra Jerzy Neyman ve Egon Pearson (Karl Pearson'un oğlu) tarafından resmileştirildi.
Michael R.Chernick

3
Neyman ve Pearson Fisher'ın güvene dayalı çıkarımını resmileştirmediler. Alternatif bir yöntem geliştirdiler.
Michael Lew - Monica

5
Fisher zamanında, "anlamlı" önemli olduğunu değil, bir şeyi ifade ettiği anlamına geliyordu.
David Lane

1
Son derece ayrıntılı bilgi için çok teşekkür ederim! Gerçekten bana çok yardımcı oluyor!
Eric

16

Kendinizi birçok benzer test yaptığınız bir durumda, bir dizi sıfırın doğru olduğu bir durumda olduğunuzu hayal edin.

Gerçekten de süper basit bir urn tipi model kullanarak modelleyelim; urn'de, her biri yapmayı seçebileceğiniz bir deneye karşılık gelen, bazıları null true, bazıları null false olan numaralı toplar vardır. Semadaki gerçek null oranını çağırınt.

Fikri daha da basitleştirmek için, bu yanlış boş değerlerin gücünün sabit olduğunu varsayalım ( (1-β), dan beri β tip II hata oranı için genel semboldür).

Urn'umuzdan bazı deneyler seçiyorsunuz (n"rastgele", onları gerçekleştirin ve hipotezlerini reddetme veya reddetme. Üründeki toplam deney sayısının (M, say) is large enough that it doesn't make a difference that this is sampling without replacement (i.e. we'd be happy to approximate this as a binomial if need be), and both n and M are large enough that we can discuss what happens on average as if they're what we experience.

What proportion of your rejections will be "correct"?

Expected total number of rejections: ntα+n(1t)(1β)
Expected total number of correct rejections: n(1t)(1β)

Overall proportion of times a rejection was actually the right decision: (1t)(1β)tα+(1t)(1β)

Overall proportion of times a rejection was an error: tαtα+(1t)(1β)

For the proportion of correct rejections to be more than a small number you need to avoid the situation where (1t)(1β)tα

Since in our setup a substantial fraction of nulls are true, if 1β is not substantially larger than α (i.e. if you don't have fairly high power), a lot of our rejections are mistakes!

So when your sample size is small (and hence power is low), if a reasonable fraction of our nulls were true, we'd often be making an error when we reject.

The situation isn't much better if almost all our nulls are strictly false -- while most of our rejections will be correct (trivially, since tiny effects are still strictly false), if the power isn't high, a substantial fraction of those rejections will be "in the wrong direction" - we'll conclude the null is false quite often because by chance the sample turned out to be on the wrong side (this may be one argument to use one sided tests - when one sided tests make sense - to at least avoid rejections that make no sense if large sample sizes are hard to get).

We can see that small sample sizes can certainly be a problem.

[This proportion of incorrect rejections is called the false discovery rate]


If you have a notion of likely effect size you're in a better position to judge what an adequate sample size might be. With large anticipated effects, a rejection with a small sample size would not necessarily be a major concern.


Thanks a lot! That's a point that I can miss very easily. Many thanks for pin pointing that!
Eric

1
Great work. This could be the accepted answer.
Richard Hardy

@Eric the original answer got a bit muddled up in the middle; I have corrected it.
Glen_b -Reinstate Monica

9

Some of Gosset's original work (aka Student), for which he developed the t test, involved yeast samples of n=4 and 5. The test was specifically designed for very small samples. Otherwise, the normal approximation would be fine. That said, Gosset was doing very careful, controlled experiments on data that he understood very well. There's a limit to the number of things a brewery has to test, and Gosset spent his working life at Guinness. He knew his data.

I'm a bit suspicious of your emphasis on one-sided testing. The logic of testing is the same whatever the hypothesis, but I've seen people go with a significant one-sided test when the two-sided was non-significant.

This is what a (upper) one-sided test implies. You are testing that a mean is 0. You do the math and are prepared to reject when T > 2.5. You run your experiment and observe that T=-50,000. You say, "phhhhht", and life goes on. Unless it is physically impossible for the test statistic to sink way below the hypothesized parameter value, and unless you would never take any decision if the test statistic goes in the opposite direction than you expect, you should be using a two-sided test.


6

The main thing you need to worry about is the power of your test. In particular, you might want to do a post-hoc power analysis to determine how likely you are, given your sample size, to identify a true significant effect of a reasonable size. If typical effects are very large, an n of 8 could be totally adequate (as with many experiments in molecular biology). If the effects you are interested in are typically subtle, however (as in many social psychology experiments), an n of thousands might still be underpowered.

This is important because underpowered tests can give very misleading results. For example, if your test is underpowered, even if you find a significant result, you have a relatively high probability of making what Andrew Gelman calls a "Type S" error, i.e., there is a real effect but in the opposite direction, or a "Type M" error, i.e., there is a real effect but the true magnitude is much weaker than what is estimated from the data.

Gelman and Carlin wrote a useful paper about doing post-hoc power analysis that I think applies in your case. Importantly, they recommend using independent data (i.e., not the data you tested, but reviews, modeling, the results of similar experiments, etc.) to estimate a plausible true effect size. By performing power analysis using that plausible estimated true effect size and comparing to your results, you can determine the probability of making a Type S error and the typical "exaggeration ratio," and thus get a better sense for how strong your evidence really is.


4

One could say that the whole point of statistical significance is to answer the question "can I trust this result, given the sample size?". In other words, the whole point is to control for the fact that with small sample sizes, you can get flukes, when no real effect exists. The statistical significance, that is to say the p-value, is precisely the answer to the question, "if no real effect existed, how likely would I be to get a fluke as big as this?". If it's very unlikely, that indicates that it's not a fluke.

So the answer is "yes", if the p-value is low, and if you have followed the correct statistical procedures and are satisfying the relevant assumptions, then yes, it is good evidence, and has the same weight as if you'd gotten the same p-value with a very large sample size.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.