Öncelikle R
, modelde herhangi bir engel bulunmadığında yazılımın ne yaptığını anlamamız gerekir . Olağan hesaplama hatırlayın
, bir kesişim mevcut olduğu
R, 2 = Σ i ( y ı -R,2
İlk eşitlikancak, muhtemelen yazmanın iki yolu arasında daha popülerolmasına rağmen, kesişmenin modele dahil edilmesi nedeniyle oluşur. İkincieşitlik aslında daha genel bir yorumunu sunuyor! Bu nokta aynı zamandabu ilgili soruyada değinmektedir.
R,2= ∑ben( y^ben- y¯)2Σben( yben- y¯)2= 1 - ∑ben( yben- y^ben)2Σben( yben- y¯)2.
Ancak, modelde herhangi bir müdahale yoksa ne olur?
De, bu durumda, R
( sessizce! ) Modifiye edilmiş bir formu kullanan
R,20= ∑beny^2benΣbeny2ben= 1 - ∑ben( yben- y^ben)2Σbeny2ben.
Bu ne hatırlamak için yardımcı olur ölçmeye çalışıyor. Eski durumda, şu anki modelinizi
yalnızca bir kesişim içeren (yani sabit terim) referans modeliyle karşılaştırıyor . İkinci durumda, kesişme yoktur, bu yüzden böyle bir modelle karşılaştırmak çok mantıklı değildir. Yani, yerine R 2R,2 dolaylı karşılık gelen bir referans modeli kullanır, hesaplanansadece gürültü.R,20
Aşağıda sonra gelende, ben her ikisi için ikinci ifadenin odaklanmak ve R 2 0 bu ifade başka bağlamlarda ile genelleştirildiğinde beri ve genellikle maddeler anlamında şeyler düşünmek daha doğal.R,2R,20
Ama nasıl farklılar ve ne zaman?
y^y~
R,2R,20
R,2= 1 - ∥ y - y^∥22∥ y - y¯1 ∥22,
R,20= 1 - ∥ y - y~∥22∥ y ∥22,
Şimdi, , ardından ise ve sadece
∥ y ∥22= ∥ y - y¯1 ∥22+ n y¯2R,20> R2
∥ y - y~∥22∥ y - y^∥22< 1 + y¯21n∥ y - y¯1 ∥22.
Sol taraf birden büyüktür, çünkü karşılık gelen model kendi içinde iç içe geçmiş demektir.y~y^ . Sağ taraftaki ikinci terim, yalnızca bir engelleme modelinin ortalama kare hatası ile bölünen tepkilerin kare ortalamasıdır. Bu nedenle, diğer varyasyona göre cevabın ortalaması büyüdükçe, daha fazla " " olur ve hakim şansı .R,20R,2
Tüm modele bağlı malzemelerin sol tarafta olduğuna ve modele bağlı olmayan malzemelerin sağda olduğuna dikkat edin.
Tamam, peki sol taraftaki oran nasıl küçük?
Hatırlayın
ve burada ve alt uzay karşılık gelen çıkıntı matrisleridir ve şekilde .y~= P0yy^= P1yP0P1S0S1S0⊂ S1
Bu nedenle, oranın bire yakın olması için, ve alt
alanlarının birbirine çok benzer olması gerekir. Şimdi ve yalnızca in bir temel vektör olup olmamasına göre farklılık gösterir , bu nedenle
çok yakın bir alt alan olması daha iyi olur .S0S1S0S11S01
Temelde, bu, öngörücümüzün güçlü bir ortalama dengelemesinin daha iyi olması anlamına gelir ve bu ortalama dengelemesinin yordayıcının değişkenliğine egemen olması gerektiği anlamına gelir.
Bir örnek
Burada modelde açıkça bir kesişme noktası olan ve söz konusu duruma yakın davranan bir örnek oluşturmaya çalışıyoruz. Aşağıda göstermek için bazı basit bir R
kod.
set.seed(.Random.seed[1])
n <- 220
a <- 0.5
b <- 0.5
se <- 0.25
# Make sure x has a strong mean offset
x <- rnorm(n)/3 + a
y <- a + b*x + se*rnorm(x)
int.lm <- lm(y~x)
noint.lm <- lm(y~x+0) # Intercept be gone!
# For comparison to summary(.) output
rsq.int <- cor(y,x)^2
rsq.noint <- 1-mean((y-noint.lm$fit)^2) / mean(y^2)
Bu aşağıdaki çıktıyı verir. Biz modelle başlamak ile kesişmesine.
# Include an intercept!
> summary(int.lm)
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-0.656010 -0.161556 -0.005112 0.178008 0.621790
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.48521 0.02990 16.23 <2e-16 ***
x 0.54239 0.04929 11.00 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.2467 on 218 degrees of freedom
Multiple R-squared: 0.3571, Adjusted R-squared: 0.3541
F-statistic: 121.1 on 1 and 218 DF, p-value: < 2.2e-16
O zaman , engellemeyi dışladığımızda ne olacağını görün .
# No intercept!
> summary(noint.lm)
Call:
lm(formula = y ~ x + 0)
Residuals:
Min 1Q Median 3Q Max
-0.62108 -0.08006 0.16295 0.38258 1.02485
Coefficients:
Estimate Std. Error t value Pr(>|t|)
x 1.20712 0.04066 29.69 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3658 on 219 degrees of freedom
Multiple R-squared: 0.801, Adjusted R-squared: 0.8001
F-statistic: 881.5 on 1 and 219 DF, p-value: < 2.2e-16
Aşağıda kırmızı ile kesişen model ve mavi ile kesişmeyen model verilerinin bir grafiğidir.