R'nin lm () çıktısının yorumlanması


234

R’deki yardım sayfaları, bu sayıların ne anlama geldiğini bildiğimi varsayıyor ama bilmiyorum. Buradaki her sayıyı sezgisel olarak anlamaya çalışıyorum. Çıktısını göndereceğim ve ne bulduğuma dair yorum yapacağım. Varsayıp yazacağım gibi hatalar olabilir (irade). Temel olarak katsayılardaki t-değerinin ne anlama geldiğini ve neden artık standart hatayı yazdırdıklarını bilmek istiyorum.

Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.09907 -0.23626 -0.01064  0.23345  1.17532 

Bu, artıkların 5 puanlık bir özetidir (ortalamaları her zaman 0'dır, değil mi?). Herhangi bir büyük aykırı olup olmadığını hızlı bir şekilde görmek için sayılar (burada tahmin ediyorum) kullanılabilir. Ayrıca, artıkların normal dağılıma sahip olmaktan uzaksa (normal dağılıma sahip olmaları durumunda) zaten burada görebilirsiniz.

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)       3.30843    0.06210  53.278  < 2e-16 ***
iris$Petal.Width -0.20936    0.04374  -4.786 4.07e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Tahminler en küçük kareler regresyon ile hesaplanır. Ayrıca, standart hata . Bunun nasıl hesaplandığını bilmek istiyorum. T değerinin ve karşılık gelen p değerinin nereden geldiği hakkında hiçbir fikrim yok. normal dağılım göstermesi gerektiğini biliyorum , ancak t-değeri nasıl hesaplanır? σβi ββi^σβiβ^

Residual standard error: 0.407 on 148 degrees of freedom

1npϵTϵ , sanırım. Ama neden bunu hesaplıyoruz ve bize ne anlatıyor?

Multiple R-squared: 0.134,  Adjusted R-squared: 0.1282 

n i = 1 ( ^ y i - ˉ y )2R2=sy^2sy2 , bu da . Noktalar düz bir çizgide uzanıyorsa oran 1'e, rastgele ise 0'a yakındır. Düzeltilmiş R karesi nedir?i=1n(yi^y¯)2i=1n(yiy¯)2

F-statistic: 22.91 on 1 and 148 DF,  p-value: 4.073e-06 

Tüm model için F ve p , önceki gibi sadece için değil . F değeri . Büyüdükçe, daha düşük olasılıkla 'nın hiç bir etkisi olmaz.s 2 yβi βsy^2ϵiβ


Artıklar normalden çok fazla sapmıyor, neden böyle düşünüyorsunuz?
nico

@ nico: Sanırım @Alexx Hardt varsayımsal olarak konuşuyordu. Yani bir zamanlar olabilir kalıntılar, normal sapan olup olmadığını görmek için beş sayı özetini kullanarak
Gavin Simpson

@Gavin Simpson: Haklısın, cümleyi yanlış okudum. Önceki yorumumu dikkate almayın.
nico

9
Küçük kelime oyunu: Sadece bu 5 maddeye dayanarak normallik veya normallik hakkında hiçbir şey söyleyemezsiniz. Bu özete dayanarak söyleyebileceğiniz tek şey, tahmini kalıntıların yaklaşık sıfır civarında simetrik olup olmadığıdır. Rapor edilen nicelikleri tahmini kalıntı standart hatasına göre bölüp bu değerleri N (0,1) 'in ilgili nicelikleriyle karşılaştırabilirsiniz, ancak QQ arsalarına bakmak muhtemelen daha mantıklı olur.
Fabians,

5
Burada Bir Not: Model değil yerine o . aşağıdaki cevapta doğru bir şekilde tanımlanmıştır, ancak soruda yanlış anlaşıldığını açıkça belirtmez, bu nedenle birileri tutarsızlığı fark etmeyebilir. FSSmodel/SSerrorMSmodel/MSerrorF
gung

Yanıtlar:


202

Beş nokta özeti

evet, fikir dağıtımın kısa bir özetini vermektir. Ortalamada kabaca simetrik olmalı, medyan 0'a yakın olmalı, 1Q ve 3Q değerleri ideal olarak kabaca benzer olmalıdır.

Katsayılar veβi^s

Modeldeki her katsayı Gauss (Normal) rasgele bir değişkendir. rasgele değişkenin dağılımının ortalama tahmindir ve standart hata o dağılımın varyansın kare köküdür. nin tahminindeki belirsizliğin bir ölçüsüdür .βi^βi^

Bunların Wikipedia'da nasıl hesaplandığını (iyi kullanılan matematiksel formülleri) görebilirsiniz . Kendisine saygısı istatistik programı unutmayın değil hesaplamak için standart matematik denklemleri kullanmak bir bilgisayarda bunları yaparken hesaplamalarında hassasiyet büyük kaybına yol açabilir çünkü.βi^

t istatistik

istatistikleri tahminidir ( ), standart hatalar bölünmesiyle ( ), mesela . Nesnenizde Q ile aynı modeli bulduğunuzu varsayalım :tβi^σi^ti=βi^σi^mod

> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)

Daha sonra değerleri R raporları şöyle hesaplanır:t

> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width 
  53.277950   -4.786461 

Burada coef(mod)olan ve parametreleri, standart hatalarıdır model parametrelerinin kovaryans matrisinin çapraz elementlerin karekök verir ( ).βi^sqrt(diag(vcov(mod)))σi^

P değeri elde etme olasılığıdır. gibi büyük ya da sıfır hipotezi (eğer görülen mutlak t değerinden daha büyük ) doğru olduğunu, olan . ( Yukarıdakileri kullanarak ) olarak hesaplanırlar :|t|H0H0βi=0tstats

> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
 (Intercept)  Petal.Width 
1.835999e-98 4.073229e-06

Bu nedenle, dağılımından yaptığımız değerlerini , modelin artık serbestlik derecelerine eşit serbestlik dereceleriyle elde etme olasılığını hesaplıyoruz . Bu , gözlenen nin mutlak değerlerinden daha büyük bir değeri elde etme olasılığını temsil eder . 2 ile çarpılır, çünkü negatif yönde de büyük olabilir.ttttt

Artık standart hata

Artık standart hata, parametresinin bir tahminidir . Sıradan en küçük karelerdeki varsayım, artıkların ayrı ayrı, ortalama 0 ve standart sapma ile birlikte bir Gauss (normal) dağılımıyla tanımlandığı şeklindedir . sabit varyans varsayımı ile ilgilidir; artıkların her biri aynı varyansa sahiptir ve bu varyans eşittir .σσσσ2

DüzeltilmişR2

Düzeltilmiş şu şekilde hesaplanır:R2

1(1R2)n1np1

Arındırılmış aynı şey , ancak modeli (örneğin parametre sayısı) karmaşıklığını ayarlanmıştır. Tek bir parametreye sahip bir model göz önüne alındığında, belirli bir , bu modele başka bir parametre eklersek , eklenen parametrenin istatistiksel gücü olmasa bile , yeni modelin artması gerekir . Düzeltilmiş , modeldeki parametre sayısını dahil ederek bunu hesaba katar.R2R2R2R2R2

F istatistik

, iki varyans (oranıdır ), model parametrelerinin (regresyon SSR karelerinin toplamı) ve (hata karelerinin toplamının, SSE) kalıntı veya açıklanamayan varyans ile açıklanabilir varyans. Modelin ANOVA tablosunu şu yolla alırsak bunu daha iyi görebilirsiniz :FSSR/SSEanova()

> anova(mod)
Analysis of Variance Table

Response: Sepal.Width
             Df  Sum Sq Mean Sq F value    Pr(>F)    
Petal.Width   1  3.7945  3.7945   22.91 4.073e-06 ***
Residuals   148 24.5124  0.1656                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

s ANOVA çıkışı ve aynı çıkış. Kolon iki modeli ve şunları içerir . Etkisi olmayan sıfır hipotezi altında büyük bir elde etme olasılığını, 1 ila 148 derece serbestlik dereceli bir dağılımından hesaplayabiliriz. ANOVA tablonun son sütununda bildirilen budur. Tek, sürekli bir yordayıcının basit örneğinde (örneğinize göre), , bu nedenle p değerleri aynıdır. Bu eşdeğerlik sadece bu basit durumda geçerlidir.F3,7945 / 0.1656 = 22.91 K K K = T 2 p e t bir l . W ı d t hsummary(mod)Mean Sq3.7945/0.1656=22.91FFF=tPetal.Width2


5
@Gavin (+1) Güzel resimlerle mükemmel tepki!
chl

2
İyi iş. T değerlerini hesaplamak için açıklığa kavuşturmanız gereken bir şey: sqrt (diag (vcov (mod))) tahminlerin GD'sini oluşturur. Bunlar model özetinde çıkarılan SE'lerle aynıdır. Bunu söylemek daha kolay ve anlaşılır; t = Tahmini / SEest. Bu anlamda başka hiçbir değerden farklı değildir.
Brett,

2
(+1) Bu harika. Ekleyeceğim tek şey, değerinin eğim için aynı olması (p değerlerinin aynı olmasının nedenidir). Bu - tabii ki - çok açıklayıcı değişkenlerle doğru değildir. t 2Ft2

2
@Jay; Teşekkürler. Bu denklikten bahsetmeyi de düşündüm. Çok fazla detay olup olmadığından emin değil miydi? Bu konuda bir şey bir mo ilan edeceğim.
Gavin Simpson,

2
"hesaplamak için standart matematiksel denklemleri kullanmayacak" Ne kullanacaklar?
SmallChess,

0

Ronen İsrail ve Adrienne Ross (AQR) bu konuda çok hoş bir makale yazdı: Ölçme Faktörü Etkilenmeleri: Kullanımlar ve Suistimaller .

Özetlemek için (bakınız: s. 8),

  • Genellikle, ne kadar yüksek olursa , model portföy iadelerini o kadar iyi açıklar.R2
  • T-istatistiği ikiden büyük olduğunda, beta tahmininin sıfırdan istatistiki olarak farklı olduğuna% 95 güven ile (veya% 5 yanlış olma ihtimalimizle) söyleyebiliriz. Başka bir deyişle, bir portföyün bir faktöre önemli derecede maruz kaldığını söyleyebiliriz.

R'nin lm()özeti p değerini hesaplar Pr(>|t|). P değeri ne kadar küçük olursa, faktör o kadar önemlidir. P değeri = 0,05 makul bir eşiktir.


6
Bu makaledeki "t-istatistiği ikiden büyük olduğunda, (% 5'lik bir şansımız hatalı)) beta tahmininin istatistiksel olarak sıfırdan farklı olduğunu" söyleyebiliriz. . 11], stats.stackexchange.com/questions/311763 ve stats.stackexchange.com/questions/26450 adresinde tartışılmaktadır .
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.