Doğrusal regresyon için t-testini anlama


17

Ben doğrusal bir regresyon (null hipotezi hiçbir korelasyon olan) bazı hipotez testleri gerçekleştirmek için nasıl çalışıyorum. İçinde bulunduğum konuyla ilgili her kılavuz ve sayfa bir t testi kullanıyor gibi görünüyor. Ama doğrusal regresyon için t-testinin aslında ne anlama geldiğini anlamıyorum. Tamamen yanlış bir anlayışım veya zihinsel bir modelim yoksa, iki popülasyonu karşılaştırmak için bir t testi kullanılır. Ancak regresör ve regressand benzer popülasyonların örnekleri değildir ve aynı birimden bile olmayabilir, bu yüzden bunları karşılaştırmak mantıklı değildir.

Peki, doğrusal bir regresyonda bir t-testi kullanırken, aslında ne yapıyoruz?

Yanıtlar:


37

Muhtemelen iki örnek testini düşünüyorsunuz çünkü bu genellikle t dağılımının ilk ortaya çıktığı yerdir . Ancak gerçekten t testinin tümü , test istatistiği için referans dağılımının t dağılımı olduğudur. Eğer Z ~ N ( 0 , 1 ) ve S 2 ~ χ 2 d ile Z ve S 2 bağımsız ardından ZttttZN(0,1)S2χd2ZS2 Tanıma göre t d . Bunu t dağılımının sadece bu oranın dağılımına verilen bir isim olduğunuvurgulamak için yazıyorum, çünkü çok fazla geliyor ve bu formun herhangi birisinin t dağılımı olacak. İki örnek t testi için, bu oran, null altında ortalamalardaki farkın sıfır ortalama bir Gaussian olması ve bağımsız Gaussianların varyans tahmini bağımsız bir χ 2 olması nedeniyle ortaya çıkar (bağımsızlıkBasu teoremiile gösterilebilir

ZS2/dtd
ttχ2 bu da bir Gauss örneğindeki standart varyans tahmininin popülasyon ortalamasına yardımcı olduğu gerçeğini kullanır, buna karşılık numune ortalaması tam ve aynı miktar için yeterlidir).

Doğrusal regresyon ile temelde aynı şeyi alırız. Vektör . Let S 2 j = ( X , T x ) - 1 j j ve prediktörleri kabul X olmayan rasgele. Σ 2'yi bilseydikβ^N(β,σ2(XTX)1)Sj2=(XTX)jj1Xσ2 biz olurdu β j - 0H0 null altındaki σ S jN(0,1):βj=0dolayısıyla aslında bir Z testimiz olur. Amaσ2'yitahminettiğimizde, normalite varsayımlarımıza göre istatistiğimizden bağımsız olduğu ortaya çıkanχ2rasgele değişken ile sonuçlanırız

β^j0σSjN(0,1)
H0:βj=0σ2χ2ve sonra da bir olsuntdağılımı.β^jt

İşte ayrıntıları: varsayalım . İzin vermek H = X ( X , T x ) - 1 x T olmak Elimizdeki şapka matris e 2 = ( I - H ) Y 2 = y T ( I - H ) y . H idempotent, bu yüzden gerçekten güzel bir sonuç var yN(Xβ,σ2I)H=X(XTX)1XT

e2=(IH)y2=yT(IH)y.
H merkezi olmayan parametre ileδ=βTXT(I-H)Xβ=βT(XTX-XTX
yT(IH)y/σ2χnp2(δ)
, yani bu merkezi bir χ 2 ve n - pδ=βTXT(IH)Xβ=βT(XTXXTX)β=0χ2npserbestlik derecesi (bu, Cochran teoreminin özel bir örneğidir ). X'in sütun sayısını belirtmek için kullanıyorum , bu yüzden X'in bir sütunu kesişmeyi verirse p - 1 kesişme öngörüleri olmazdı. Bazı yazarlar p'yi kesişmeyen tahmin edicilerin sayısı olarak kullanırlar, bu nedenle bazen orada özgürlük derecelerinde n - p - 1 gibi bir şey görebilirsiniz , ancak hepsi aynı şeydir.pXXp1pnp1

Bunun sonucu, , yaniE(eTe/σ2)=np,σ2'ninbir tahmincisi olarak harika çalışır.σ^2:=1npeTeσ2

Bunun anlamı şudur ki , standart Gauss'un chi kareye oranının, serbestlik derecesine bölünmesidir. Bunu bitirmek için bağımsızlık göstermemiz gerekiyor ve aşağıdaki sonucu kullanabiliriz:

β^jσ^Sj=β^jSjeTe/(np)=β^jσSjeTeσ2(np)

Sonuç: için ve matrisler A ve B içinde R, l x kZNk(μ,Σ)ABRl×k ve , sırasıyla A , Z ve B , Z ve eğer yalnızca bağımsız bir Σ B , T = 0 (bu egzersiz (B) Jun Shao'nun Matematik İstatistikleri bölüm 1 ).Rm×kAZBZAΣBT=0

Biz β = ( X , T x ) - 1 x T y ve e = ( I - H ) y y ~ N ( X, β , σ 2 I ) . Bunun anlamı ( X T X ) - 1 X Tσ 2 I ( I - H ) T = σ 2β^=(XTX)1XTye=(IH)yyN(Xβ,σ2I) , böylece pEve bu nedenle p E , T , e.

(XTX)1XTσ2I(IH)T=σ2((XTX)1XT(XTX)1XTX(XTX)1XT)=0
β^eβ^eTe

Netice şimdi biliyorum β j (Yukarıdaki varsayımlar altında her şeyi) arzu edildiği gibi.

β^jσ^Sjtnp

C=(AB)(l+m)×kAB

CZ=(AZBZ)N((AμBμ),CΣCT)
CΣCT=(AB)Σ(ATBT)=(AΣATAΣBTBΣATBΣBT).
CZbirΣBT=0 bileşenlere tam olarak eşdeğer olduğu ortaya çıktı birZ ve BZ içinde CZ ilişkisiz olmak.


3
+1 her zaman cevabınızı okumaktan zevk alır.
Haitao Du

9

@ Chaconne'nin cevabı harika. Ama burada çok daha kısa matematiksel olmayan bir sürüm!

Amaç bir P değeri hesaplamak olduğundan, önce boş bir hipotez tanımlamanız gerekir. Hemen hemen her zaman, yani eğim aslında yataydır, bu nedenle eğim (beta) için sayısal değer 0.0'dır.

Verilerinizden eğim uyumu 0.0 değil. Bu rastgele tesadüf veya sıfır hipotezinin yanlış olmasından kaynaklanıyor mu? Buna kesinlikle cevap veremezsiniz, ancak bir P değeri, bir tür cevabı bulmanın bir yoludur.

Regresyon programı eğimde standart bir hata rapor eder. T oranını eğimin standart hatasına bölünmesiyle hesaplayın. Aslında (eğim eksi boş hipotez eğimi) standart hataya bölünür, ancak boş hipotez eğimi neredeyse her zaman sıfırdır.

Artık orana sahipsiniz. Serbestlik derecesi (df) sayısı veri noktalarının sayısı eksi regresyona uyan parametre sayısına (doğrusal regresyon için iki) eşittir.

Bu değerlerle (t ve df) çevrimiçi bir hesap makinesi veya tabloyla P değerini belirleyebilirsiniz.

Temelde gözlemlenen bir hesaplanmış değeri (eğim) varsayımsal bir değerle (sıfır hipotezi) karşılaştıran tek örnekli bir t-testidir.


4
Asıl soru, bunun neden "tek örnekli bir t-testi"
amip, Reinstate Monica'nın
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.