Doğrusal regresyon katsayıları için güven aralıkları normal veya dağılımına mı dayanmalıdır ?

Bazı doğrusal modellere sahip olalım, örneğin sadece basit ANOVA:

# data generation
set.seed(1.234)                      
Ng <- c(41, 37, 42)                    
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)      
fact <- as.factor(rep(LETTERS[1:3], Ng)) 

m1 = lm(data ~ 0 + fact)
summary(m1)

Sonuç aşağıdaki gibidir:

Call:
lm(formula = data ~ 0 + fact)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.30047 -0.60414 -0.04078  0.54316  2.25323 

Coefficients:
      Estimate Std. Error t value Pr(>|t|)    
factA  -0.9142     0.1388  -6.588 1.34e-09 ***
factB   0.1484     0.1461   1.016    0.312    
factC   1.0990     0.1371   8.015 9.25e-13 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816,     Adjusted R-squared: 0.4683 
F-statistic: 36.23 on 3 and 117 DF,  p-value: < 2.2e-16

Şimdi bu parametrelerin güven aralığını tahmin etmek için iki farklı yöntem deniyorum

c = coef(summary(m1))

# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2], 
    high = c[,1] + qnorm(p = 0.975) * c[,2])

# 2nd method
confint(m1)

Sorular:

Tahmini doğrusal regresyon katsayılarının dağılımı nedir? Normal veya ? $t$
Her iki yöntem neden farklı sonuçlar veriyor? Normal dağılım ve doğru SE varsayıldığında, her iki yöntemin de aynı sonuca sahip olmasını beklerdim.

Çok teşekkür ederim!

veri ~ 0 + gerçek

Bir cevaptan sonra DÜZENLE :

Cevap kesin, bu tam olarak aynı sonucu verecektir confint(m1)!

# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], 
    high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

r regression confidence-interval

— Meraklı
kaynak

ile ilgili: stats.stackexchange.com/questions/111559/…

— Meraklı

(1) hatalar normal dağıtılır ve varyans olan değil , daha sonra bilinen bir sahiptiro sıfır hipotezi altında -Dağıtımdoğru regresyon katsayısıdır. Varsayılantesti için, yani-İstatistik rapor sadece orada

\frac{\hat{β} - β_{0}}{s e (\hat{β})}

$\frac{\hat{\beta} - \beta_0}{{\rm se}(\hat{\beta})}$

t

$t$

β_{0}

$\beta_0$ R

β_{0} = 0

$\beta_0 = 0$

t

$t$

\frac{\hat{β}}{s e (\hat{β})}

$\frac{\hat{\beta}}{{\rm se}(\hat{\beta})}$

Bazı düzenlilik koşulları altında, yukarıdaki istatistiklerin , hataların normal olup olmadığına veya hata varyansının bilinip bilinmediğine bakılmaksızın , her zaman asimptotik olarak normal şekilde dağıtıldığını unutmayın.

(2) Farklı sonuçlar almanızın nedeni, normal dağılımın yüzdelik değerlerinin dağılımının yüzdelik değerlerinden farklı olmasıdır. Bu nedenle, standart hatanın önünde kullandığınız çarpan farklıdır, bu da farklı güven aralıkları sağlar. $t$

Özellikle, normal dağılımı kullanarak güven aralığının

\hat{β} \pm z_{α / 2} \cdot s e (\hat{β})

$\hat{\beta} \pm z_{\alpha/2} \cdot {\rm se}(\hat{\beta})$

burada olduğu normal dağılım miktarsal. Standart güven aralığı durumunda, ve . dağılımına dayalı güven aralığı $z_{\alpha/2}$ $\alpha/2$ $95\%$ $\alpha = .05$ $z_{\alpha/2} \approx 1.96$ $t$

\hat{β} \pm t_{α / 2, n - p} \cdot s e (\hat{β})

$\hat{\beta} \pm t_{\alpha/2,n-p} \cdot {\rm se}(\hat{\beta})$

burada çarpanı , serbestlik derecelerine sahip dağılım miktarlarına dayanır; burada , örnek büyüklüğü ve , yordayıcı sayısıdır. büyük, ve yaklaşık olarak aynıdır. $t_{\alpha/2,n-p}$ $t$ $n-p$ $n$ $p$ $n$ $t_{\alpha/2,n-p}$ $z_{\alpha/2}$

Aşağıda, ila arasında değişen örnek boyutları için çarpanlarının bir çizimi verilmiştir ( Bu çizim için olduğunu varsaydım , ancak bu niteliksel olarak hiçbir şeyi değiştirmiyor). -multipliers aşağıda görüldüğü gibi, bunlar için yakınsaştıkları, daha büyük, ancak numune boyutu arttıkça çarpanı (koyu siyah çizgi). $t$ $5$ $300$ $p=1$ $t$ $z$

enter image description here

— Makro
kaynak

Evet!! Güzel bir iş parçası !! (+1)

— gui11aume

Makro, cevap için teşekkürler. Ancak: T istatistiklerinin dağılımı hakkında konuşuyorsunuz, oysa regresyon katsayısının dağılımını sordum. Anladığım kadarıyla regresyon katsayısı, ortalaması (katsayı tahmini) ve standart hatası ile karakterize edilen bir dağılımdır. Test dağılımı değil, bu dağılımı sordum. Ben bir şey özledim olabilir bu yüzden daha açık bir şekilde açıklamaya çalışın :) Teşekkürler

— Merak

\frac{\hat{β} - β_{0}}{s e (\hat{β})}

$\frac{ {\hat \beta}−β_{0}}{{\rm se}(\hat β)}$

t

$t$

\hat{β}

$\hat β$

t

$t$

β_{0}

$β_0$

s e (\hat{β})

${\rm se}(\hat β)$

\hat{β}

$\hat β$

Kesinlikle haklısın! Bu, küçük numune boyutları için bile tam olarak aynı sonucu verecektir confint(m1)! cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

— Meraklı

\hat{β}

$\hat{\beta}$

\hat{β} - β_{0}

$\hat{\beta}-\beta_0$

β_{0}

$\beta_0$

t

$t$