Bu terimleri anlamanın en iyi yolu elle regresyon hesaplaması yapmaktır. Ben birbiriyle yakından ilişkili iki cevap yazdım ( burada ve burada ), ancak özel durumunuzu anlamanıza yardımcı olmayabilirler. Ama yine de onları okuyun. Belki de bu terimleri daha iyi kavramsallaştırmanıza yardımcı olurlar.
Bir regresyonda (veya ANOVA), ilgilenilen bir popülasyondan sonuçları tahmin etmemizi sağlayan örnek bir veri kümesine dayanan bir model oluşturuyoruz. Bunu yapmak için, aşağıdaki üç bileşen diğer bileşenlerin hesaplanabileceği basit bir doğrusal regresyonda hesaplanır, örneğin ortalama kareler, F değeri, (ayrıca ayarlanan ) ve artık standart hata ( ):R2R2RSE
- toplam kare toplamı ( )SStotal
- kalan kareler toplamı ( )SSresidual
- model kareler toplamı ( )SSmodel
Her biri, modelin verileri ne kadar iyi tanımladığını ve veri noktalarından yerleştirilmiş modele (aşağıdaki çizimde kırmızı çizgiler olarak gösterilmiştir) kare mesafelerin toplamı olduğunu değerlendiriyor.
ne kadar iyi ortalama uyuyor veri değerlendirmek. Neden ortalama? Ortalama, sığabileceğimiz en basit model olduğundan ve en küçük kareler regresyon çizgisinin karşılaştırıldığı model olarak hizmet eder. Veri kümesini kullanan bu çizim şunları göstermektedir:SStotalcars
regresyon çizgisi verilerini ne kadar uygun olduğunu değerlendirmek.SSresidual
regresyon çizgisi ortalama kıyasla ne kadar iyi karşılaştırır (yani arasındaki fark ve ).SSmodelSStotalSSresidual
Sorularınızı cevaplamak için, önce model ve çıktıdan başlayarak referans olarak anlamak istediğiniz terimleri hesaplayalım:
# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares
Karelerin toplamı, bireysel veri noktalarının modele kare uzaklıklarıdır:
# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model
Ortalama kareler, serbestlik derecelerine göre ortalaması alınan karelerin toplamıdır:
# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1
# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model
Sorularınıza cevaplarım:
S1:
- Bu aslında gözlemlenen değerlerin lm çizgisinden ortalama uzaklığıdır?
Kalıntı standart hata ( ) kareköküdür kalıntı ortalama kare ( ):RSEMSresidual
# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se
Bunu Hatırlarsınız gözlenen veri noktalarının kare mesafeleri ve modeli (yukarıda ikinci parselde regresyon hattı) vardı ve oldu sadece ortalama ilk için, cevap soru, evet: , gözlemlenen verilerin modelden ortalama uzaklığını temsil eder. Sezgisel olarak, bu da mantıklıdır çünkü mesafe daha küçükse, model uyumunuz da daha iyidir.SSresidualMSresidual SSresidualRSE
S2:
- Şimdi kafam karışıyor çünkü eğer RSE bize gözlemlediğimiz noktaların regresyon çizgisinden ne kadar saptığını söylerse, düşük bir RSE bize "modeliniz gözlemlenen veri noktalarına dayanarak iyi uyuyor" -> dolayısıyla modellerimizin ne kadar iyi uyduğunu söylüyor , Peki R kare ve RSE arasındaki fark nedir?
Şimdi , ve :R2SSmodelSStotal
# R squared
r.sq <- ss.model/ss.total
r.sq
ne kadar ifade eder , toplam varyasyon veri modeline (regresyon doğrusu) ile izah edilebilir. Verilere en basit modeli, yani ortalamayı taktığımızda toplam varyasyonun verilerdeki varyasyon olduğunu unutmayın. Karşılaştırma ile arsa arsa.R2SStotalSSmodel
Yani ikinci soruyu cevaplamak için, arasındaki fark ve olması size gözlenen verilerin verilen (bu durumda regresyon hattı) modelinin yanlışlığına dair bir şeyler anlatır.RSER2RSE
Öte yandan ortalama yalnız (yani en basit modeli) tarafından açıklanmıştır modeli (yani regresyon hattı) kıyasla varyasyon ile açıklanabilir ne kadar varyasyon anlatır.R2
S3:
- RSE'mizin yüksek olması ve R karenin düşük olması için LİNEER OLMAYAN güçlü bir ilişkiyi gösteren bir F değerine sahip olabileceğimiz doğru mu?
Dolayısıyla, diğer değeri, (veya sinyalin) model ortalama karesinin (gürültü) ile bölünmesiyle :FMSmodelMSresidual
# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F
Veya başka bir deyişle değeri, modelin yanlışlığı göz önüne alındığında, modelin ne kadarının (ortalamayla karşılaştırıldığında) iyileştiğini ifade eder.F
Üçüncü sorunuzun anlaşılması biraz zor ama teklifinize katılıyorum.