Doğrusal regresyon modelinin güven ve tahmin aralıkları


9

Tamam, ben lineer regresyonu anlamaya çalışıyorum. Bir veri setim var ve her şey yolunda görünüyor, ama kafam karıştı. Bu benim doğrusal model özeti:

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.2068621  0.0247002   8.375 4.13e-09 ***
temp        0.0031074  0.0004779   6.502 4.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874 
F-statistic: 42.28 on 1 and 28 DF,  p-value: 4.789e-07 

yani, p değeri gerçekten düşüktür, yani x, y arasındaki korelasyonu şans eseri elde etmek pek olası değildir. Eğer onu çizip regresyon çizgisini çizersem şöyle görünür: http://s14.directupload.net/images/120923/l83eellv.png (Resim olarak aldım ama ben - yeni bir kullanıcı olarak - şu anda değil Mavi çizgiler = güven aralığı Yeşil çizgiler = tahmin aralığı

Şimdi, birçok nokta güven aralığına düşmüyor, bu neden olur? Ben veri noktalarının hiçbiri regresyon hattı b / c sadece birbirlerinden oldukça uzakta olduğunu düşünüyorum, ama emin değilim: Bu gerçek bir sorun mu? Hala regresyon çizgisi etrafındalar ve tamamen bir model görebilirsiniz. Ama bu yeterli mi? Anlamaya çalışıyorum, ama kendime aynı soruları tekrar tekrar sormaya devam ediyorum.

Şimdiye kadar düşündüğüm şey: Güven aralığı, CI'leri tekrar tekrar hesaplarsanız, gerçek ortalamanın CI'ye düştüğü zamanların% 95'inde olduğunu söylüyor. Yani: dp'nin içine düşmemesi bir sorun değil, çünkü bunlar gerçekten araç değil. Öte yandan tahmin aralığı, PI'leri tekrar tekrar hesaplarsanız, gerçek DEĞER'in aralığa düştüğü zamanların% 95'inde olduğunu söyler. Yani, içinde (sahip olduğum) puanlara sahip olmak oldukça önemlidir. Sonra PI her zaman CI daha geniş bir aralığı olması gerektiğini okudum. Neden? Ben bunu yaptım:

conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))

ve sonra onu çizdim:

matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")

Şimdi, ek veriler için CI ve PI hesaplarsam, aralığı ne kadar geniş seçtiğim önemli değil, yukarıdakiyle aynı çizgileri alıyorum. Anlayamıyorum. Bu ne anlama geliyor? Bu daha sonra şöyle olur:

conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))

yeni x için farklı diziler seçtim. Dizinin regresyonumdaki değişkenlerden farklı gözlem sayısı varsa, bir uyarı alıyorum. Neden olsun ki?

Yanıtlar:


3

Bazı sorularınızı anlıyorum ama diğerleri açık değil. İzin verin ve bazı gerçekleri açıklayayım ve belki de tüm karışıklığınızı giderir.

Sahip olduğunuz uyum oldukça iyi. Güven aralıkları çok sıkı olmalıdır. Dikkate alınabilecek iki tür güven bölgesi vardır: Gerçek regresyon fonksiyonunun tamamını verilen güven seviyesiyle kapsaması planlanan bsimultanoues bölgesi.

Baktığınız diğer şeyler, uygun regresyon noktalarının güven aralıklarıdır. Sadece y'nin takılmış değerini, ortak değişken (ler) in verilen değer (ler) i kapsaması amaçlanmaktadır. Bunlar, ortak değişkenlerin diğer değerlerindeki y değerlerini kapsaması amaçlanmamıştır. Aslında aralıklar sizin durumunuzda olması gerektiği gibi çok sıkı ise, değişkenlerin sabit değer (ler) inden uzaklaştıkça, veri noktalarından herhangi biri sizi çok fazla kapsamaz. Bu tür bir kapsam için, eşzamanlı güven eğrilerini (üst ve alt sınır eğrileri) almanız gerekir.

Şimdi, bir değişkenin belirli bir değerinde ay öngörüyorsanız ve eş değişkenin verilen değerinde y için güven aralığı için kullandığınız tahmin aralığı için aynı güven düzeyini istiyorsanız, aralık daha geniş olacaktır. Bunun nedeni, modelin değişkenlik ekleneceğini söyler çünkü yeni bir y'nin aralıkta dikkate alınması gereken kendi bağımsız hatası olacaktır. Bu hata bileşeni, formda kullanılan verilere dayanarak tahminlere girmez.


Üzgünüm, hala tam olarak anlamıyorum. 2 tür güven aralığını açıkladınız, ama "baktığım zamanlar" derken hangilerini kastediyorsunuz? b / c Hem öngörü hem de güven aralığını çizdim ve farkı anlamakta sorun yaşıyorum. Ayrıca, ne yaptığımı açıklığa kavuşturmak için önceki yazıma bazı R komutları ekledim
lisa

Eğriler, eşzamanlı güven eğrileri oluşturarak güven bantlarının elde edilip edilmediğini netleştirmez veya sadece bireysel güven aralıklarını düzgün bir şekilde bağlar. Eğer eşzamanlı olsaydı, eğrinin dışında bulunan çok fazla noktayı göremezsiniz. Ama işaret ettiğim gibi, bireysel aralıklarla olabilir. Henüz R kodunu içeren düzenlemeye bakmadım.
Michael R. Chernick

R'ye özel soruları cevaplayacak kadar iyi bilmiyorum. Bir R uzmanının size söyleyebileceğini bilmediğim şey, güven eğrileri ve tahmin eğrilerinin bireysel güven aralıklarını bağlayıp bağlamadığı ya da eşzamanlı eğrileri oluşturup oluşturmadığıdır. Ayrıca kodunuz ne yapmak istediğinizi yapıyor mu?
Michael R. Chernick
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.