Çalıştığınız model formu alıyor
yben= μ + β1x1 ben+ β2x2 i+ ϵben (1)
burada εben , sıfır ortalama normal dağılımından geldiği varsayılan bir hata terimidir.
Modeli eklediniz ve şu tahminleri aldınız: , ve .μ^β^1β^2
Onların aralığında değişken değerlerini düzeltmek Şimdi, eğer, demek ve , bir tahmin değeri hesaplanmasıyla elde edilebilirx⋆1 benx⋆2 iyben
y⋆ben= μ^+β^1x⋆1 ben+β^2x⋆2 i (2)
Modeliniz verilerinize mükemmel bir şekilde uyuyorsa, öngörülen değerler gerçek değerlerdir. Ancak, genel olarak, değerleri değerlerinin basit bir doğrusal kombinasyonu olarak tam olarak elde edilemez (" Tüm modeller yanlış, ancak bazıları faydalıdır "). Diğer bir deyişle, (1) 'deki hata teriminin varyansı genel olarak sıfır değildir. Ancak, temel olarak, (veya bunların ölçekli bir versiyonu) "küçük" ise model (1) iyi bir yaklaşımdır .yxyben- y⋆ben
Düzenle
Yorumlarınızda predict()gerçekte ne yaptığını sordunuz . İşte basit bir açıklayıcı örnek.
#generate a simple illustrative data set
> x <- runif(10)
> y <- 5 + 2.7 * x + rnorm(10, mean=0, sd=sqrt(0.15))
>
> #fit the model and store the coefficients
> regLin <- lm(y~x)
> coef <- coef(regLin)
>
> #use the predict() function
> y_star2 <- predict(regLin)
> #use equation (2)
> y_star1 <- coef[1] + coef[2] * x
> #compare
> cbind(y, y_star1, y_star2)
y y_star1 y_star2
1 7.100217 6.813616 6.813616
2 6.186333 5.785473 5.785473
3 7.141016 7.492979 7.492979
4 5.121265 5.282990 5.282990
5 4.681924 4.849776 4.849776
6 6.102339 6.106751 6.106751
7 7.223215 7.156512 7.156512
8 5.158546 5.253380 5.253380
9 7.160201 7.198074 7.198074
10 5.555289 5.490793 5.490793
x1vex2sürekli bir risk faktörü değildir kategorik olanlardır. (Neden kesişim ?)