Tamam, ben lineer regresyonu anlamaya çalışıyorum. Bir veri setim var ve her şey yolunda görünüyor, ama kafam karıştı. Bu benim doğrusal model özeti:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2068621 0.0247002 8.375 4.13e-09 ***
temp 0.0031074 0.0004779 6.502 4.79e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874
F-statistic: 42.28 on 1 and 28 DF, p-value: 4.789e-07
yani, p değeri gerçekten düşüktür, yani x, y arasındaki korelasyonu şans eseri elde etmek pek olası değildir. Eğer onu çizip regresyon çizgisini çizersem şöyle görünür: http://s14.directupload.net/images/120923/l83eellv.png (Resim olarak aldım ama ben - yeni bir kullanıcı olarak - şu anda değil Mavi çizgiler = güven aralığı Yeşil çizgiler = tahmin aralığı
Şimdi, birçok nokta güven aralığına düşmüyor, bu neden olur? Ben veri noktalarının hiçbiri regresyon hattı b / c sadece birbirlerinden oldukça uzakta olduğunu düşünüyorum, ama emin değilim: Bu gerçek bir sorun mu? Hala regresyon çizgisi etrafındalar ve tamamen bir model görebilirsiniz. Ama bu yeterli mi? Anlamaya çalışıyorum, ama kendime aynı soruları tekrar tekrar sormaya devam ediyorum.
Şimdiye kadar düşündüğüm şey: Güven aralığı, CI'leri tekrar tekrar hesaplarsanız, gerçek ortalamanın CI'ye düştüğü zamanların% 95'inde olduğunu söylüyor. Yani: dp'nin içine düşmemesi bir sorun değil, çünkü bunlar gerçekten araç değil. Öte yandan tahmin aralığı, PI'leri tekrar tekrar hesaplarsanız, gerçek DEĞER'in aralığa düştüğü zamanların% 95'inde olduğunu söyler. Yani, içinde (sahip olduğum) puanlara sahip olmak oldukça önemlidir. Sonra PI her zaman CI daha geniş bir aralığı olması gerektiğini okudum. Neden? Ben bunu yaptım:
conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))
ve sonra onu çizdim:
matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")
Şimdi, ek veriler için CI ve PI hesaplarsam, aralığı ne kadar geniş seçtiğim önemli değil, yukarıdakiyle aynı çizgileri alıyorum. Anlayamıyorum. Bu ne anlama geliyor? Bu daha sonra şöyle olur:
conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))
yeni x için farklı diziler seçtim. Dizinin regresyonumdaki değişkenlerden farklı gözlem sayısı varsa, bir uyarı alıyorum. Neden olsun ki?