Örneklem büyüklüğü arttıkça t dağılımı neden daha normal hale geliyor?


19

Wikipedia'ya göre, örnekler normal olarak dağılmış bir popülasyonun gözlemleri olduğunda, t-dağılımının t-değerinin örnekleme dağılımı olduğunu anlıyorum. Ancak, bunun neden t-dağılımının şeklinin yağ kuyrukludan neredeyse mükemmel normale değişmesine neden olduğunu sezgisel olarak anlamıyorum.

Normal bir dağılımdan örnek alıyorsanız, o zaman büyük bir örnek alırsanız bu dağılıma benzeyecektir, ancak neden yağ kuyruklu şekil ile başladığını anlamıyorum.

Yanıtlar:


23

Sezgisel bir açıklama yapmaya çalışacağım.

T istatistiği * bir pay ve paydaya sahiptir. Örneğin, bir örnek t-testindeki istatistik

x¯μ0s/n

* (birkaç tane var, ancak bu tartışma umarım sorduğunuzları kapsayacak kadar genel olmalıdır)

Varsayımlar altında, pay ortalama 0 ve bazı bilinmeyen standart sapmalarla normal bir dağılıma sahiptir.

Aynı varsayımlar altında payda, payın dağılımının standart sapmasının bir tahminidir (paydaki istatistiğin standart hatası). Paydan bağımsızdır. Karesi, serbestlik derecelerine (t-dağılımının df'sidir ) çarpı bir ki-kare rasgele değişkendir .σnumerator

Serbestlik dereceleri küçük olduğunda, payda oldukça dik eğridir. Ortalamasından daha düşük olma şansı ve oldukça küçük olma şansı yüksektir. Aynı zamanda, ortalamasından çok, çok daha büyük olma şansına da sahiptir.

Normallik varsayımı altında pay ve payda bağımsızdır. Dolayısıyla, bu t-istatistiğin dağılımından rasgele çizersek, normal bir rasgele sayıya, ortalama olarak yaklaşık 1 olan sağ eğrili bir dağılımdan ikinci rasgele * seçilen değere bölünür.

* normal terime bakılmaksızın

Paydada olduğu için paydanın dağılımındaki küçük değerler çok büyük t-değerleri üretir. Paydadaki sağ eğim, t istatistiklerini ağır kuyruklu hale getirir. Payda daha keskin aynı standart sapma ile normalden daha zirve t-dağılımını yapan dağılımı, sağ arka t .

Bununla birlikte, serbestlik dereceleri arttıkça, dağılım ortalamasının etrafında çok daha normal görünümlü ve çok daha "sıkı" hale gelir.

resim açıklamasını buraya girin

Bu nedenle, payda tarafından bölünmenin payın dağılım şekli üzerindeki etkisi, serbestlik derecesi arttıkça azalır.

Sonunda - Slutsky'nin teoreminin bize olabileceği gibi - paydanın etkisi daha çok bir sabitle bölünmeye benzer ve t istatistiklerinin dağılımı normale çok yakındır.


Payda karşılıklı olarak kabul edilir

whuber, yorumlarda paydanın karşılığına bakmanın daha aydınlatıcı olabileceğini öne sürdü. Yani, t-istatistiklerimizi pay (karşılıklı) payda karşılıklı (normal eğim) olarak yazabiliriz.

Örneğin, yukarıdaki tek örnekli-t istatistiğimiz:

n(x¯μ0)1/s

Şimdi orijinal nüfusu standart sapması dikkate , σ x . Onunla çarpabilir ve bölebiliriz:Xiσx

n(x¯μ0)/σxσx/s

İlk terim standart normaldir. İkinci terim (ölçeklendirilmiş ters-ki-kare rasgele değişkenin kare kökü) daha sonra bu standardı "normal olarak" ya da daha büyük olan değerlerle ölçeklendirir.

Normallik varsayımı altında, üründeki iki terim bağımsızdır. Dolayısıyla, bu t-istatistiğin dağılımından rasgele çizersek, sağ çarpıklık dağılımından normal bir rasgele sayı (üründeki ilk terim) çarpı ikinci bir rastgele seçilen değerin (normal terime bakılmaksızın) tipik olarak 'yaklaşık 1.

Df büyük olduğunda, değer 1'e çok yakın olma eğilimindedir, ancak df küçük olduğunda, oldukça eğridir ve yayılma büyüktür, bu ölçeklendirme faktörünün büyük sağ kuyruğu kuyruğu oldukça şişman hale getirir:

resim açıklamasını buraya girin


Teşekkürler! Bu çok açıklığa kavuştu, ama hala "Kare bir ki-kare rastgele değişkenin serbestlik derecesine (t-dağılımının df'si) bölündü [payın standart sapması] ". Bunu bilmek sadece yararlı bir şey olduğu ya da sorumun cevabı ile doğrudan alakalı bir şey olduğu için mi bahsettiniz? Anketinizde, paydamızın karesinin dağılımının aksine, payınızda dağılımının olduğunu anlıyorum.
user1205901 - Monica'yı

2
İstatistiğin dağılımı, df'sinde bir ki-karenin kare kökü olmasa bile normalden daha ağır kuyruklu olurdu ; bu anlamda cevabı dışarıda bırakmak doğrudan doğruya değişmeyecektir. Ama en azından şemadaki ölçeklendirilmiş dağılımların nereden geldiğine dair bir açıklama işlevi görüyor .
Glen_b -Monica

3
Bu analizi , örnek standart sapmanın karşılıklılığına dayanarak yapmak biraz daha aydınlatıcı olabileceğini düşünüyorum . Bu, örnek SD'nin örnek ortalamadan (biraz daha fazla vurgu ve açıklamadan faydalanabilecek temel bir fikir olan IMHO) bağımsız olduğu iddiası ile birlikte, insanların örnek ortalamanın örnek SD tarafından bölünmesinin aksi takdirde Normal dağılımın ne olacağını ortaya koydu. (Bu elbette
Gossett'in

1
@whuber, karşılıklı olarak tartışan bir bölüm ekledim, ancak orijinal tartışmayı da korudum (daha doğrudan görünmeme rağmen, birçok insanın karşılıklı olarak daha fazla çıkabileceğini takdir ediyorum) . Ben de bağımsızlık üzerine biraz ekleyeceğim
Glen_b

1
s/nσ/ns/σσ/sσ

8

@Glen_b, örneklem büyüklüğü arttıkça t istatistiğinin neden daha normal göründüğüne dair sezgiyi verdi. Şimdi, istatistiğin dağıtımını zaten aldığınız durum için size biraz daha teknik bir açıklama vereceğim.

n1n

(1+x2n1)n/2n1B(n12,12).

Bunu göstermek mümkün

1n1B(n12,12)12π,

ve

(1+x2n1)n/2exp(x2/2),

n


2
1/n(1+(x/n)2)1tnözgürlük derecesi? Sekansın neden yaptığı yağ kuyruklu şekil ile başladığını bilmek istiyor.
whuber

2
nn

2

Sadece yeni başlayanlar için sezgime yardımcı olan bir şeyi paylaşmak istedim (diğer cevaplardan daha az titiz olsa da).

Z,Z1,...,Zn

ZZ12+...+Zn2n

n

n1Zn

E[Z2]=1nZi2nZi2

nZ1=Z

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.