Doğrusal regresyon katsayıları için güven aralıkları normal veya dağılımına mı dayanmalıdır ?


18

Bazı doğrusal modellere sahip olalım, örneğin sadece basit ANOVA:

# data generation
set.seed(1.234)                      
Ng <- c(41, 37, 42)                    
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)      
fact <- as.factor(rep(LETTERS[1:3], Ng)) 

m1 = lm(data ~ 0 + fact)
summary(m1)

Sonuç aşağıdaki gibidir:

Call:
lm(formula = data ~ 0 + fact)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.30047 -0.60414 -0.04078  0.54316  2.25323 

Coefficients:
      Estimate Std. Error t value Pr(>|t|)    
factA  -0.9142     0.1388  -6.588 1.34e-09 ***
factB   0.1484     0.1461   1.016    0.312    
factC   1.0990     0.1371   8.015 9.25e-13 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816,     Adjusted R-squared: 0.4683 
F-statistic: 36.23 on 3 and 117 DF,  p-value: < 2.2e-16 

Şimdi bu parametrelerin güven aralığını tahmin etmek için iki farklı yöntem deniyorum

c = coef(summary(m1))

# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2], 
    high = c[,1] + qnorm(p = 0.975) * c[,2])

# 2nd method
confint(m1)

Sorular:

  1. Tahmini doğrusal regresyon katsayılarının dağılımı nedir? Normal veya ?t
  2. Her iki yöntem neden farklı sonuçlar veriyor? Normal dağılım ve doğru SE varsayıldığında, her iki yöntemin de aynı sonuca sahip olmasını beklerdim.

Çok teşekkür ederim!

veri ~ 0 + gerçek

Bir cevaptan sonra DÜZENLE :

Cevap kesin, bu tam olarak aynı sonucu verecektir confint(m1)!

# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], 
    high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

Yanıtlar:


19

(1) hatalar normal dağıtılır ve varyans olan değil , daha sonra bilinen β - β 0 bir sahiptirto sıfır hipotezi altında -Dağıtımβ0doğru regresyon katsayısıdır. Varsayılantesti içinβ0=0, yanit-İstatistik rapor sadece orada β

β^β0se(β^)
tβ0Rβ0=0t
β^se(β^)

Bazı düzenlilik koşulları altında, yukarıdaki istatistiklerin , hataların normal olup olmadığına veya hata varyansının bilinip bilinmediğine bakılmaksızın , her zaman asimptotik olarak normal şekilde dağıtıldığını unutmayın.

(2) Farklı sonuçlar almanızın nedeni, normal dağılımın yüzdelik değerlerinin dağılımının yüzdelik değerlerinden farklı olmasıdır. Bu nedenle, standart hatanın önünde kullandığınız çarpan farklıdır, bu da farklı güven aralıkları sağlar.t

Özellikle, normal dağılımı kullanarak güven aralığının

β^±zα/2se(β^)

burada olduğu α / 2 normal dağılım miktarsal. Standart % 95 güven aralığı durumunda, α = .05 ve z α / 21.96 . T- dağılımına dayalı güven aralığızα/2α/295%α=.05zα/21.96t

β^±tα/2,npse(β^)

burada çarpanı , n - p , n - p serbestlik derecelerine sahip t- dağılım miktarlarına dayanır; burada n , örnek büyüklüğü ve p , yordayıcı sayısıdır. N, büyük, t α / 2 , N - p ve z α / 2 yaklaşık olarak aynıdır.tα/2,nptnpnpntα/2,npzα/2

Aşağıda, 5 ila 300 arasında değişen örnek boyutları için çarpanlarının bir çizimi verilmiştir ( Bu çizim için p = 1 olduğunu varsaydım , ancak bu niteliksel olarak hiçbir şeyi değiştirmiyor). T -multipliers aşağıda görüldüğü gibi, bunlar için yakınsaştıkları, daha büyük, ancak z numune boyutu arttıkça çarpanı (koyu siyah çizgi). t5300p=1tz

enter image description here


Evet!! Güzel bir iş parçası !! (+1)
gui11aume

Makro, cevap için teşekkürler. Ancak: T istatistiklerinin dağılımı hakkında konuşuyorsunuz, oysa regresyon katsayısının dağılımını sordum. Anladığım kadarıyla regresyon katsayısı, ortalaması (katsayı tahmini) ve standart hatası ile karakterize edilen bir dağılımdır. Test dağılımı değil, bu dağılımı sordum. Ben bir şey özledim olabilir bu yüzden daha açık bir şekilde açıklamaya çalışın :) Teşekkürler
Merak

2
β^β0se(β^)
tβ^tβ0se(β^)β^

Kesinlikle haklısın! Bu, küçük numune boyutları için bile tam olarak aynı sonucu verecektir confint(m1)! cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])
Meraklı

β^β^β0β0t
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.