R, r kare ve artık standart sapma bize doğrusal bir ilişki hakkında ne anlatıyor?


13


Regresyon analizinin yorumlanması üzerinde çok az arka plana sahibim ama r, r kare ve artık standart sapmanın anlamı hakkında gerçekten kafam karıştı. Tanımları biliyorum:

Karakterizasyonları

r dağılım grafiğindeki iki değişken arasındaki doğrusal ilişkinin gücünü ve yönünü ölçer

R-kare, verilerin yerleştirilmiş regresyon hattına ne kadar yakın olduğunun istatistiksel bir ölçüsüdür.

Kalıntı standart sapma, doğrusal bir fonksiyon etrafında oluşan noktaların standart sapmasını tanımlamak için kullanılan istatistiksel bir terimdir ve ölçülen bağımlı değişkenin doğruluğunun bir tahminidir. ( Birimlerin ne olduğunu bilmiyorum, buradaki birimler hakkında herhangi bir bilgi yardımcı olacaktır )

(kaynaklar: burada )

Soru
Karakterizasyonu "anlasam" da, bu terimlerin veri seti hakkında bir sonuç çıkarmak için nasıl uyuştuğunu anlıyorum. Buraya küçük bir örnek ekleyeceğim, belki bu sorumu cevaplamak için bir rehber olarak hizmet edebilir ( kendi örneğinizi kullanmaktan çekinmeyin!)

Örnek
Bu bir howework sorusu değil, ancak basit bir örnek almak için kitabımda aradım (analiz ettiğim mevcut veri kümesi burada gösterilemeyecek kadar karmaşık ve büyük)

Her biri 10x4 metre olan yirmi parsel, geniş bir mısır tarlasında rastgele seçildi. Her parsel için, bitki yoğunluğu (arsadaki bitki sayısı) ve ortalama koçan ağırlığı (koçan başına gm tane) gözlenmiştir. Sonuçlar aşağıdaki tabloda verilmektedir:
(kaynak: yaşam bilimleri istatistikleri )

╔═══════════════╦════════════╦══╗
 Platn density  Cob weight   
╠═══════════════╬════════════╬══╣
           137         212   
           107         241   
           132         215   
           135         225   
           115         250   
           103         241   
           102         237   
            65         282   
           149         206   
            85         246   
           173         194   
           124         241   
           157         196   
           184         193   
           112         224   
            80         257   
           165         200   
           160         190   
           157         208   
           119         224   
╚═══════════════╩════════════╩══╝

: Önce bir dağılım verileri görselleştirmek için yapacaktır , burada R, R hesaplayabilir Yani 2 ve artık standart sapma. önce korelasyon testi:
resim açıklamasını buraya girin

    Pearson's product-moment correlation

data:  X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.9770972 -0.8560421
sample estimates:
       cor 
-0.9417954 

ve ikincisi, regresyon çizgisinin bir özeti:

Residuals:
    Min      1Q  Median      3Q     Max 
-11.666  -6.346  -1.439   5.049  16.496 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 316.37619    7.99950   39.55  < 2e-16 ***
X            -0.72063    0.06063  -11.88 5.89e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared:  0.887, Adjusted R-squared:  0.8807 
F-statistic: 141.3 on 1 and 18 DF,  p-value: 5.889e-10

Bu teste dayanarak: r = -0.9417954, R-kare: 0.887ve Artık standart hata: 8.619 Bu değerler bize veri kümesi hakkında ne söylüyor? ( Soruya bakınız )


3
"Tanımlar" olarak adlandırdığınız şeyin yalnızca sıradan karakterizasyonlar olduğunu ve bu şekilde nasıl yorumlandıklarına ve uygulandıklarına bağlı olarak yanıltıcı olabileceğini belirtmek gerekir. Gerçek tanımlar nicel ve kesindir.
whuber

Bunu işaret ettiğim için teşekkür ederim, kullandığım kaynaklar bu tanımları çağırdı, ancak bağlam "karakterizasyonu" olmasaydı muhtemelen daha iyi olurdu, bunu değiştireceğim!
KingBoomie

Parçalar: R-kare genellikle yordayıcılar tarafından açıklanan varyans oranı olarak açıklanır, bu nedenle 1'e yakın iyidir. Artık standart sapma birimleri, yanıt değişkeninizin birimleri olan artıklarınızın birimleri olmalıdır.
alistaire

Teşekkür ederim! @alistaire aslında bu anlamlıdır, çünkü Orijinal noktaların y değerini tahmin edilen noktaların y değerleriyle karşılaştırırız
KingBoomie

Kalanları, cevabında David'in önerdiği şekilde tahmin etmelisiniz.
HelloWorld

Yanıtlar:


5

Bu istatistikler size ilişkide doğrusal bir bileşen olup olmadığını söyleyebilir, ancak ilişkinin kesinlikle doğrusal olup olmadığı hakkında fazla bilgi veremez. Küçük bir kuadratik bileşenle ilişkisi r ^ 2, 0,99 olabilir. Öngörülen bir fonksiyon olarak artıkların bir arsa açığa çıkarabilir. Galileo'nun buradaki denemesinde https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html korelasyon çok yüksektir, ancak ilişki açıkça doğrusal değildir.


5

İşte ilk cevabımla ilgili sorunlar hakkında geri bildirim aldıktan sonra ikinci bir cevap denemesi.

r|r||r|

R2r2R2

rR2rrR2rR2

Kalan Standart Hata, gerçekte gözlenen değerlerin dağılımını temsil eden, tahmin edilen regresyon çizgisi üzerinde merkezlenen normal bir dağılım için standart sapmadır. Başka bir deyişle, sadece yeni bir arsa için bitki yoğunluğunu ölçecek olsaydık, yerleştirilen modelin katsayılarını kullanarak koçan ağırlığını tahmin edebiliriz, bu dağılımın ortalamasıdır. RSE, bu dağılımın standart sapmasıdır ve dolayısıyla gerçekte gözlemlenen koçan ağırlıklarının modelin öngördüğü değerlerden ne kadar sapmasını beklediğimizin bir ölçüsüdür. Bu durumda ~ 8'lik bir RSE, koçan ağırlığının örnek standart sapması ile karşılaştırılmalıdır, ancak RSE, örnek SD ile karşılaştırıldığında ne kadar küçükse model o kadar öngörücü veya yeterli olur.


@whuber Bu soruya henüz cevap yok, bu yüzden tekrar denemeye karar verdim. Eski cevabı geri almak yerine, tüm bagajı ile sadece yeni bir cevap yazmaya karar verdim (kopyaladığım RSE paragrafı hariç). Zamanınız varsa, bu ikinci denemeyle ilgili herhangi bir geri bildirim için gerçekten minnettar olurum. Model değerlendirme için her zamanki yaklaşımım, amaç genellikle tahmin olduğundan çapraz onaylama ve uzak tutma setleridir, ancak bu metrikleri oldukça yaygın oldukları kadar iyi anlamak istiyorum.
Johan Falkenjack

2
|r|rρ
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.