Neden örnek büyük olduğunda ortalamayı tahmin etmek için T-dağılımını kullanmıyorsunuz?


17

Temel istatistik dersleri, örneklem büyüklüğü n büyük olduğunda (genellikle 30 veya 50'nin üzerinde) bir nüfus parametresinin ortalamasını tahmin etmek için genellikle normal bir dağılım kullanılmasını önerir . Öğrencinin T-dağılımı, numunenin standart sapmasındaki belirsizliği açıklamak için daha küçük numune boyutları için kullanılır. Numune boyutu büyük olduğunda, numune standart sapması popülasyon standart sapması hakkında iyi bilgi vererek normal dağılım tahminine izin verir. Anladım.

Ama neden güven aralığınızı tam olarak alabileceğinizi tahmin edesiniz? Örnek büyüklüğünden bağımsız olarak, sadece T-dağılımı ile elde edebileceğiniz bir şeyin tahmini ise normal dağılımı kullanmanın anlamı nedir?


@Glen_b Evet, bu aralık tahmin edicileri olacaktır. Bu aralıklarla ilgili olarak: "Çalışma popülasyonu standart sapması (σ) bilinmediğinde ve örnek boyutu küçük olduğunda (n <30), çalışma sorunları sırasında t-dağılım tablosunu kullanmalısınız" (web.pdx.edu/~stipakb/ adresinden) indir / PA551 / NormalVersusTdistribution.doc). Niçin insanlar popülasyon standart sapması bilinmediğinde (n> 30 olsa bile) T dağılımını her zaman kullanmıyorlar?
Pertinax

Yanıtlar:


15

Sadece başlık ile ilgili açıklığa kavuşturmak için, t-dağılımını ortalamayı tahmin etmek için kullanmıyoruz (en azından bir nokta tahmini anlamında), ancak bunun için bir aralık oluşturmak için kullanıyoruz.

Ama neden güven aralığınızı tam olarak alabileceğinizi tahmin edesiniz?

Bu iyi bir soru ('tam olarak' çok fazla ısrarcı olmadığımız sürece, tam olarak t dağıtılmış olduğu varsayımları gerçekten geçerli olmayacaktır).

"Çalışma popülasyonu standart sapması (σ) bilinmediğinde ve örnek boyutu küçük olduğunda (n <30) çalışma problemleri sırasında t-dağılım tablosunu kullanmalısınız"

Niçin insanlar popülasyon standart sapması bilinmediğinde (n> 30 olsa bile) T dağılımını her zaman kullanmıyorlar?

Tavsiyeyi - en iyi ihtimalle - potansiyel olarak yanıltıcı olarak görüyorum. Bazı durumlarda, t-dağılımı, serbestlik dereceleri bundan daha büyük olduğunda hala kullanılmalıdır.

Normalin makul bir yaklaşım olduğu yerlerde çeşitli şeylere bağlıdır (ve dolayısıyla duruma bağlıdır). Bununla birlikte, (bilgisayarlarda) sadece t kullanmak zor olmadığından, df çok büyük olsa bile, n = 30'da farklı bir şey yapmak için neden endişelenmeniz gerektiğini merak etmelisiniz.

Örnek boyutları gerçekten büyükse, bir güven aralığı arasında fark edilir bir fark yaratmaz, ancak n = 30'un her zaman 'gerçekten büyük' ​​e yeterince yakın olduğunu düşünmüyorum.


t yerine normalin kullanılmasının mantıklı olabileceği bir durum vardır - bu, verilerinizin t dağılımı elde etme koşullarını açıkça karşılamadığı, ancak yine de ortalamanın yaklaşık normallikini tartışabilirsiniz (eğer n oldukça büyük). Bununla birlikte, bu durumlarda, t pratikte iyi bir yaklaşımdır ve bir şekilde 'daha güvenli' olabilir. [Böyle bir durumda, simülasyon yoluyla araştırma yapmaya eğilimli olabilirim.]


2
Bu belgede bir yerde α = % 5 olduğunda iyi olduğunu okudum . Ama bunun yeterli olduğundan emin değilim. n=30α=5%
Stéphane Laurent

1
@ StéphaneLaurent Çoğu amaç için% 5 oranında iyi olmalı, ancak bu tür kararlar bireye çok bağlıdır. Bu hatanın önemli olabileceği durumlar var - sadece bugün bir tanesiyle karşılaştım.
Glen_b -Reinstate Monica

2
@ StéphaneLaurent Johnson, VE'den (2013) iyi bir fikir edinebilirsiniz. İstatistiksel kanıtlar için gözden geçirilmiş standartlar . Ulusal Bilimler Akademisi Bildirileri , 110 (48): 19313–19317. Bu makale, en çok yayınlanan araştırma bulgularının neden araştırmanın yanlış eleştirisi olduğu ( a la Science Nasıl Yanlış Gidiyor )
Alexis

4
@ StéphaneLaurent Makaleniz sorumu yanıtlıyor. Kayıt için, sonucunun kabaca bir çevirisi: "Normal dağılımın Öğrenci'nin t-dağılımına bir yaklaşım olarak kullanılması, yalnızca 20. yüzyılın teknolojik sınırlamalarının ürünüdür.Bu sınırlamalar modern istatistiksel yazılımla ortadan kalkmıştır ve artık yoktur msgstr "bu muhafazakar olmayan yaklaşımları kullanmak için herhangi bir neden".
Pertinax

2
@ThunderChimp Uyarısı: popülasyon varyansı biliniyorsa (örn. Popülasyon oranını tahmin etmek - iki değişkenli bir değişkenin ortalaması), o zaman standart normal ( z ), t dağılımı uygun değildir.
Alexis

7

It's a historical anachronism. There are many of them in statistics.

If you didn't have a computer, it was hard to use the t-distribution, and much easier to use a normal distribution. Once the sample size gets large, they two distributions become similar (how large is 'large' is another question).


1
That seems a pretty shallow answer for a deeper question.
Alexis

2
Not sure what you mean. You don't think that's the reason? (The most upvoted answer makes the same point - although more eloquently and elaborately.)
Jeremy Miles

1
I downvoted because your answer reads to me like: Because history. Brief recapitulation of your question.
Alexis

2
Thanks for letting me know - it's nicer than an anonymous downvote that I didn't know the reason for.
Jeremy Miles

3
Historically, one "used" these distributions by looking up values in tables. The only way in which it would have been any easier to use a Normal distribution would have been that one didn't have to pick the column corresponding to the degrees of freedom. That's scarcely a concern. What did limit usage was that at some point it makes little sense to expand the tables to large degrees of freedom: the books would become too large.
whuber

1

Because in either case (using the normal distribution or the t-distribution), cumulative distribution values are derived numerically (there is no closed form for the integral of ex2 , or the integral of the t-density). The cumulative distribution function of t distribution with n-degrees of freedom tends to the CDF of a standard normal as n. If n is large, the numerical error in approximating the integral is less than the error made by replacing the t-density by the normal density.
In other words, the "exact" t-value is not "exact", and within the approximation error, the value is the same as the CDF value for the standard normal.


1
At which sizes do the numerical errors in estimating t outweigh the gains from using it?
jona

2
surely you can calculate the t-values to arbitrary precision, and so they can be as precise as the quantities you're comparing them to.
Neil G

"In other words, the "exact" t-value is not "exact", and within the approximation error, the value is the same as the CDF value for the standard normal." I'm not sure this is a reliable rule of thumb.
shadowtalker

2
This answer misses the point. As an example, the values of the cumulative Normal distribution and cumulative Student t distribution at 2 become indistinguishable in the 16th significant figure (that is, approximately to double precision) only when the sample size exceeds 5.9325×1016. This indicates that numerical error is not an issue in any practical problem.
whuber

1
Whuber, you are right. I used "numerical error" improperly. I meant all the errors handling numbers: numerical approximation of the integrals, numerical errors for working with finite precision, and numerical errors due to truncation. If one could work with infinite precision, there would be no justification for replacing the t-distribution with the normal
VictorZurkowski
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.