Hipotez testi için neden T dağılımı doğrusal bir regresyon katsayısı kullanılır?


17

Uygulamada, lineer regresyon katsayısının önemini kontrol etmek için standart bir T testi kullanmak yaygın bir uygulamadır. Hesaplamanın mekaniği bana mantıklı geliyor.

T-dağılımı neden doğrusal regresyon hipotez testinde kullanılan standart test istatistiğini modellemek için kullanılabilir? Standart test istatistiği Burada atıfta bulunuyorum:

T0=β^β0SE(β^)

Bu soruya tam ve eksiksiz bir cevap oldukça uzun olacak, eminim. Birinin bununla başa çıkmasını beklerken, burada bulduğum bazı notlara bakarak bunun neden iyi olduğu hakkında oldukça iyi bir fikir edinebilirsiniz: onlinecourses.science.psu.edu/stat501/node/297 . Özellikle olduğuna dikkat edin . t(np)2=F(1,np)
StatsStudent

1
Bunun bir kopya değil inanıyoruz ve henüz olamaz Peki (soru ve yanıtlara ikisi) tüm upvotes ... bu ? Ya da belki de bir kopya değil, bu da Çapraz Onaylanmış yaklaşık yedi yıldır var olmayan süper temel konular olduğu (ya da bugüne kadar vardı) anlamına geliyor ... Vay ...
Richard Hardy

@RichardHardy Hmm, bu bir kopya gibi geliyor. Daha ayrıntılı olsa da, soru özellikle geçerli: "Ben için ispat nasıl β i , β i - β iβ^i"β^iβisβ^itnk
Firebug'ın

Yanıtlar:


26

Biz t-dağılımını kullanmak anlamak için, altta yatan dağılımı ne olduğunu bilmek gerekir P ve kareler Artık toplamı (bir R S S size t-dağılımını verecek bu iki koymak birlikte ile gibi).β^RSS

Kolay kısım dağılımı P bir normal dağılım - bu not görmek için bu β = ( X , T x ) - 1 x T -Y bu doğrusal bir fonksiyonu yani Y burada Y ~ N ( X β , σ 2 I n ) . Bunun bir sonucu olarak, aynı zamanda, normal olarak, dağıtılan β ~ N- ( p , σ 2 ( x , T x ) -β^β^(XTX)1XTYYYN(Xβ,σ2In)- Eğer dağılımını kaynaklanan ihtiyaç olursa haber ver p .β^N(β,σ2(XTX)1)β^

Ek olarak, , burada n gözlem sayısıdır ve p , regresyonunuzda kullanılan parametre sayısıdır. Bunun kanıtı biraz daha kapsamlıdır, ancak türetilmesi de kolaydır (buraya kanıt bakın RSS neden ki kare süreleri np dağıtılır? ).RSSσ2χnp2np

Bu noktaya kadar her şey matris / vektör notasyonu içinde inceledik ancak basitlik kullanım için haydi Yukarı β i ve normal dağılım kullanan bizi verecektir: β i - β iβ^i

β^iβiσ(XTX)ii1N(0,1)

Buna ek olarak, bir ki-kare dağıtım : o sahip ( N - p ) s 2RSS

(np)s2σ2χnp2

N(0,1)s2=RSSnpσ2tnpχ2(s)/s

β^iβis(XTX)ii1tnp

s(XTX)ii1=SE(β^i).

Let me know if it makes sense.


what a great answer! could you please explain why
β^iβiσ(XTX)ii1N(0,1)
?
KingDingeling

4

The answer is actually very simple: you use t-distribution because it was pretty much designed specifically for this purpose.

Ok, the nuance here is that it wasn't designed specifically for the linear regression. Gosset came up with distribution of sample that was drawn from the population. For instance, you draw a sample x1,x2,,xn, and calculate its mean x¯=i=1nxi/n. What is the distribution of a sample mean x¯?

If you knew the true (population) standard deviation σ, then you'd say that the variable ξ=(x¯μ)n/σ is from the standard normal distribution N(0,1). The trouble's that you usually do not know σ, and can only estimate it σ^. So, Gosset figured out the distribution when you substitute σ with σ^ in the denominator, and the distribution is now called after his pseduonym "Student t".

The technicalities of linear regression lead to a situation where we can estimate the standard error σ^β of the coefficient estimate β^, but we do not know the true σ, therefore Student t distribution is applied here too.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.