Varyans için bir güven aralığı oluştururken neden ki kare kullanılıyor?


15

Bu çok temel bir soru. Neden ki kare dağılımı kullanıyoruz? Bu dağılımın anlamı nedir? Bu dağılım neden varyans için bir güven aralığı oluşturmak için kullanılıyor?

Bir açıklama için Google'da gördüğüm her yer, chi'yi ne zaman kullanacağınızı açıklayan, ancak chi'yi neden kullandığını ve neden böyle göründüğünü açıklamıyor.

Beni doğru yöne yönlendirebilen herkese çok teşekkürler, yani - varyans için bir güven aralığı oluştururken neden chi kullandığımı gerçekten anlıyorum.


4
Bunu kullanıyorsunuz çünkü - veriler normal olduğunda - Q=(n1)s2σ2χn12 . (BuQönemli bir miktar olmasını sağlar)
Glen_b-Monica'yı

2
Ayrıca bkz. Stats.stackexchange.com/questions/15711/… ve bağlantıları.
Nick Cox

1
uygulamalarıyla ilgilenen veya daha fazla araştırma yapmak isteyenler için χ 2 ("chi-squared") dağılımı ile χ ("chi") dağılımı ( şaşırtıcı bir şekilde χ 2'nin kare kökü ). χ2χ2χχ2
whuber

Yanıtlar:


23

Hızlı cevap

Bunun nedeni, verilerin iid ve olduğu ve ˉ XXiN(μ,σ2) güven aralıkları oluştururken, numune varyansı ile ilişkili örnekleme dağılımı (S2, hatırlayın, rastgele bir değişken!) Ki-kare dağılımı (S2(N-1)/σ2χ2n-1), örnek ortalamasıyla ilişkili örnekleme dağılımı standart normal dağılım olduğu gibi ((ˉX-μ)

X¯=NXiNS2=N(X¯Xi)2N1
S2S2(N1)/σ2χn12) varyansı bildiğinizde ve bilmediğinizde bir t öğrencisi ile (( ˉ X -μ)(X¯μ)n/σZ(0,1) ).(X¯μ)n/STn1

Uzun cevap

Her şeyden önce, N - 1 ile ki-kare dağılımını takip ettiğini kanıtlayacağız.S2(N1)/σ2N1 serbestlik dereceli . Bundan sonra, varyansın güven aralıklarını elde ederken bu kanıtın nasıl yararlı olduğunu ve ki-kare dağılımının nasıl göründüğünü (ve neden bu kadar yararlı olduğunu!) Göreceğiz. Hadi başlayalım.

Kanıt

Bunun için belki de bu Wikipedia makalesinde ki-kare dağılımına alışmanız gerekir . Bu dağılımın sadece bir parametresi vardır: serbestlik derecesi, ve şu şekilde verilen bir Moment Üretme Fonksiyonuna (MGF) sahiptir: m χ 2 ν ( t ) = ( 1 - 2 t ) - ν / 2 . S 2 ( N - 1 ) / σ 2 dağılımının bunun gibi bir moment üretme fonksiyonuna sahip olduğunu gösterebilirsek , ancak ν =ν

mχν2(t)=(12t)ν/2.
S2(N1)/σ2 , sonra S 2 ( N - 1 ) / σ 2'nin N - 1 serbestlik derecesinesahip bir ki-kare dağılımını izlediğini gösterdik. Bunu göstermek için iki gerçeği not edin:ν=N1S2(N1)/σ2N1
  1. Tanımlarsak , buradaZ,ı~, N(0,1), örneğin, standart normal rasgele değişkenler, momenti üreten fonksiyonYile verilir m Y (t)

    Y=(XiX¯)2σ2=Zi2,
    ZiN(0,1)Y Arasında MGFZ2ile verilir m Z 2 ( t )
    mY(t)=E[etY]=E[etZ12]×E[etZ22]×...E[etZN2]=mZi2(t)×mZ22(t)×...mZN2(t).
    Z2 I, standart normal, PDF kullandıkf(Z)=E- z 2 / 2/
    mZ2(t)=f(z)exp(tz2)dz=(12t)1/2,
    ve dolayısıyla mY(t)=(1-2t) - N / 2 , budaY'ninNserbestlik derecelibir ki-kare dağılımını izlediğini gösterir.f(z)=ez2/2/2π
    mY(t)=(12t)N/2,
    YN
  2. Y1Y2ν1ν2W=Y1+Y2ν1+ν2W

N1

(N1)S2=n(X¯μ)+(Xiμ)2,
σ2
(N1)S2σ2+(X¯μ)2σ2/N=(Xiμ)2σ2.
NS2(N1)/σ2N1 .

Varyans için Güven Aralıkının hesaplanması.

L1L2

P(L1σ2L2)=1α.
S2(N1)
L1S2(N1)σ2S2(N1)L2S2(N1).
And then remember two things: (1) the statistic S2(N1)/σ2 has a chi-squared distribution with N1 degrees of freedom and (2) the variances is always greather than zero, which implies that you can invert the inequalities, because
L1S2(N1)σ2S2(N1)S2(N1)σ2S2(N1)L1,σ2S2(N1)L2S2(N1)S2(N1)L2S2(N1)σ2,
hence, the probability we are looking for is:
P(S2(N1)L2S2(N1)σ2S2(N1)L1)=1α.
Note that S2(N1)/σ2χ2(N1). We want then,
S2(N1)L2N1pχ2(x)dx=(1α)/2   ,N1S2(N1)L1pχ2(x)dx=(1α)/2  
(we integrate up to N1 because the expected value of a chi-squared random variable with N1 degrees of freedom is N1) or, equivalently,
0S2(N1)L2pχ2(x)dx=α/2,S2(N1)L1pχ2(x)dx=α/2.
Calling χα/22=S2(N1)L2 and χ1α/22=S2(N1)L1, where the values χα/22 and χ1α/22 can be found in chi-square tables (in computers mainly!) and solving for L1 and L2,
L1=S2(N1)χ1α/22,L2=S2(N1)χα/22.
Hence, your confidence interval for the variance is
C.I.=(S2(N1)χ1α/22,S2(N1)χα/22).

1
Simply because S2 does not follow a centered chi-square distribution, while S2(N1)/σ2 does and, therefore, its easier to work with. Are you asking for a derivation for that? (i.e., you want someone to show you that S2(N1)/σ2 follows a chi-square distribution with N1 degrees of freedom?)
Néstor

4
It would be helpful to modify this answer to include the very strong but unstated assumption that the sample variance follows a chi-squared distribution when the underlying data are independent and follow a normal distribution. Unlike the theory of the distribution of the sample mean, where in practice its sampling distribution will be approximately Normal to reasonable accuracy in many situations, this same asymptotic behavior tends not to happen with the sample variance (until sample sizes become extremely large).
whuber

1
Oops. So, so true! This actually came from a problem solution that I handed out to some students, where I state on the question all these assumptions. I edited the answer now.
Néstor

1
@user34756 The reason we don't use the distribution of S2 directly is that its distribution depends on the value of a parameter. You may find it useful to investigate the use of pivotal quantities in constructing confidence intervals.
Glen_b -Reinstate Monica

1
Isn't f(z)=ez2/2 instead of f(z)=ez2 ?
Benoît Legat
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.