Regresyon analizinin yorumlanması üzerinde çok az arka plana sahibim ama r, r kare ve artık standart sapmanın anlamı hakkında gerçekten kafam karıştı. Tanımları biliyorum:
Karakterizasyonları
r dağılım grafiğindeki iki değişken arasındaki doğrusal ilişkinin gücünü ve yönünü ölçer
R-kare, verilerin yerleştirilmiş regresyon hattına ne kadar yakın olduğunun istatistiksel bir ölçüsüdür.
Kalıntı standart sapma, doğrusal bir fonksiyon etrafında oluşan noktaların standart sapmasını tanımlamak için kullanılan istatistiksel bir terimdir ve ölçülen bağımlı değişkenin doğruluğunun bir tahminidir. ( Birimlerin ne olduğunu bilmiyorum, buradaki birimler hakkında herhangi bir bilgi yardımcı olacaktır )
(kaynaklar: burada )
Soru
Karakterizasyonu "anlasam" da, bu terimlerin veri seti hakkında bir sonuç çıkarmak için nasıl uyuştuğunu anlıyorum. Buraya küçük bir örnek ekleyeceğim, belki bu sorumu cevaplamak için bir rehber olarak hizmet edebilir ( kendi örneğinizi kullanmaktan çekinmeyin!)
Örnek
Bu bir howework sorusu değil, ancak basit bir örnek almak için kitabımda aradım (analiz ettiğim mevcut veri kümesi burada gösterilemeyecek kadar karmaşık ve büyük)
Her biri 10x4 metre olan yirmi parsel, geniş bir mısır tarlasında rastgele seçildi. Her parsel için, bitki yoğunluğu (arsadaki bitki sayısı) ve ortalama koçan ağırlığı (koçan başına gm tane) gözlenmiştir. Sonuçlar aşağıdaki tabloda verilmektedir:
(kaynak: yaşam bilimleri istatistikleri )
╔═══════════════╦════════════╦══╗
║ Platn density ║ Cob weight ║ ║
╠═══════════════╬════════════╬══╣
║ 137 ║ 212 ║ ║
║ 107 ║ 241 ║ ║
║ 132 ║ 215 ║ ║
║ 135 ║ 225 ║ ║
║ 115 ║ 250 ║ ║
║ 103 ║ 241 ║ ║
║ 102 ║ 237 ║ ║
║ 65 ║ 282 ║ ║
║ 149 ║ 206 ║ ║
║ 85 ║ 246 ║ ║
║ 173 ║ 194 ║ ║
║ 124 ║ 241 ║ ║
║ 157 ║ 196 ║ ║
║ 184 ║ 193 ║ ║
║ 112 ║ 224 ║ ║
║ 80 ║ 257 ║ ║
║ 165 ║ 200 ║ ║
║ 160 ║ 190 ║ ║
║ 157 ║ 208 ║ ║
║ 119 ║ 224 ║ ║
╚═══════════════╩════════════╩══╝
: Önce bir dağılım verileri görselleştirmek için yapacaktır
, burada R, R hesaplayabilir Yani 2 ve artık standart sapma.
önce korelasyon testi:
Pearson's product-moment correlation
data: X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.9770972 -0.8560421
sample estimates:
cor
-0.9417954
ve ikincisi, regresyon çizgisinin bir özeti:
Residuals:
Min 1Q Median 3Q Max
-11.666 -6.346 -1.439 5.049 16.496
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 316.37619 7.99950 39.55 < 2e-16 ***
X -0.72063 0.06063 -11.88 5.89e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared: 0.887, Adjusted R-squared: 0.8807
F-statistic: 141.3 on 1 and 18 DF, p-value: 5.889e-10
Bu teste dayanarak: r = -0.9417954
, R-kare: 0.887
ve Artık standart hata: 8.619
Bu değerler bize veri kümesi hakkında ne söylüyor? ( Soruya bakınız )