Basit doğrusal regresyon çıktı yorumu


20

Ben korelasyon olup olmadığını belirlemek için 2 değişken doğal günlüğünde basit bir doğrusal regresyon çalıştırın. Benim çıktı şu:

R^2 = 0.0893

slope = 0.851

p < 0.001

Kafam karıştı. değerine baktığımda, çok yakın olduğu için iki değişkenin birbiriyle ilişkili olmadığını söyleyebilirim . Bununla birlikte, regresyon çizgisinin eğimi neredeyse (arsada neredeyse yatay görünmesine rağmen) ve p değeri, regresyonun oldukça önemli olduğunu gösterir.R201

Bu, iki değişkenin yüksek derecede korelasyonlu olduğu anlamına mı geliyor ? Öyleyse, değeri neyi gösterir?R2

Durbin-Watson istatistiğinin yazılımımda test edildiğini ve sıfır hipotezini reddetmediğini ( eşit olduğunu) . Bunun değişken arasındaki bağımsızlığı test ettiğini düşündüm . Bu durumda, değişkenlerin bağımlı olmasını beklerim, çünkü bunlar tek bir kuşun ölçümüdür. Bu regresyonu bir bireyin vücut durumunu belirlemek için yayınlanmış bir yöntemin parçası olarak yapıyorum, bu yüzden regresyonu bu şekilde kullanmanın mantıklı olduğunu varsaydım. Ancak, bu çıktılar göz önüne alındığında, belki bu kuşlar için, bu yöntemin uygun olmadığını düşünüyorum. Bu makul bir sonuç gibi görünüyor mu?2 21.35722


1
Durbin-Watson istatistik olup olmadığını görmek için, bir: Seri korelasyon için bir test bitişik hata terimleri karşılıklı ilişkilidir. X'iniz ve Y'niz arasındaki korelasyon hakkında hiçbir şey söylemez! Testin başarısız olması, eğim ve p-değerinin dikkatle yorumlanması gerektiğinin bir göstergesidir.
whuber

Ah tamam. Bu, iki değişkenin kendisinin ilişkili olup olmadığından biraz daha mantıklı ... sonuçta, regresyonu kullanarak bulmaya çalıştığım şeyin bu olduğunu düşündüm. Testin başarısız olması, eğimi yorumlamak konusunda dikkatli olmam gerektiğini gösteriyor ve p değeri bu durumda daha mantıklı! Teşekkürler @whuber!
Mog

1
Özellikle zayıf örneklemde, ilişki zayıf olsa da, eğim eklemek çok önemli olabilir (p değeri <.001). Bu, cevapların çoğunda, eğimin (anlamlı olsa bile) ilişkinin gücü hakkında hiçbir şey söylemediği için ima edildi.
Glen

İlişkinin gücünü belirlemek için ihtiyacınız var . Ayrıca bkz. Stats.stackexchange.com/a/265924/99274 . n
Carl

Yanıtlar:


22

Eğimin tahmini değeri tek başına size ilişkinin gücünü söylemez. İlişkinin gücü, hata varyansının boyutuna ve öngörücünün aralığına bağlıdır. Ayrıca, önemli bir değeri mutlaka güçlü bir ilişki olduğunu söylemez; p -değeri sadece eğim önemli verecektir hipotezinden hatta küçük kalkış (değil pratik önemi, örneğin olanlar), tam olarak 0 yeterince büyük bir örnek büyüklüğü için olup olmadığını test etmektedir s değerini gösterir.ppp

Eğer sunulan üç miktarlarda, , determinasyon katsayısı , ilişkinin gücünün büyük göstergesidir. Daki durumunda, R 2 = 0,089 , araçlarının 8.9 % , yanıt değişkeni varyasyon prediktörü olan bir doğrusal ilişki açıklanabilir. "Büyük" ne oluştururR2R2=.0898.9% disiplin bağlıdır. Örneğin, sosyal bilimler içinde R 2 = 0,2 "büyük" olabilir ama bir fabrika ayarı gibi kontrollü ortamlarda olabilir R 2 > 0,9R2R2=.2R2>.9"güçlü" bir ilişki olduğunu söylemek gerekebilir. Çoğu durumda bir çok küçük R 2 zayıf bir doğrusal ilişki olduğu sonucunuz makul olabilecek, böylece..089R2


Teşekkürler Makro. Çok yardımcı bir cevap. P değerinin tam olarak neyi test ettiği ile ilgili kısmı dahil ettiğiniz için mutluyum. Eğimin 1'e ne kadar yakın olduğu düşünüldüğünde, p değerinin çok düşük olması mantıklıdır. Bana öyle geliyor ki, cevabınız ve @jedfrancis 'ışığında, r ^ 2 değeri, regresyon çizgisi etrafındaki veri noktalarının' bulutundan 'bahsediyor. Mükemmel! Bu şimdi çok daha açık!
Mog

@ Makro (+1), iyi cevap. Peki "ilişkinin gücü", "kesişimin büyüklüğüne" nasıl bağlıdır? AFAIK kesişmesi, doğrusal bir ilişkinin korelasyonu veya "gücü" hakkında hiçbir şey söylemez.
whuber

@whuber, haklısın - kesişme alakasız ve kesinlikle korelasyonu değiştirmiyor - vs. y = x regresyon işlevini düşünüyordum ve ikincisinin bir şekilde daha güçlü bir ilişki olduğunu düşünüyordum ( büyüklüğünün büyük bir miktar çünkü her şeyden) eşit tutulan y nedeniyle x ikinci durumda. Bunu düşündüğüm için pek bir anlam ifade etmiyor. Gönderiyi düzenledim. y=10000+xy=xyx
Makro

4
@macro Mükemmel cevap, ancak (bu konuya yeni başlayanlar için) R ^ 2'nin güçlü bir ilişkide bile, ilişki doğrusal değilse ve özellikle monotonik değilse çok düşük olabileceğini vurguluyorum. Bunun en sevdiğim örneği stres ve sınav puanı arasındaki ilişkidir; çok düşük stres ve çok yüksek stres orta gerilimden daha kötü olma eğilimindedir.
Peter Flom - Monica'yı eski durumuna döndürün

1
@macro Evet, cevabınız iyiydi, ama çok fazla istatistik bilmeyen insanlarla çalıştım ve ne olduğunu gördüm ... bazen söylediklerimiz duydukları şey değil!
Peter Flom - Monica'yı eski durumuna döndürün

14

bağımlı değişkenin çok varyasyon bir model ile açıklanabilir nasıl söyler. Bununla birlikte, tek bir yorumlayabilir R 2R2R2 aynı zamanda bağımlı değişken orijinal değerlerine ve takılmış değerler arasındaki korelasyonun. Belirleme katsayısının tam olarak yorumlanması ve derivasyon bulunabilir burada .R2

Belirleme katsayısı gözlenen değerler arasında kare Pearson korelasyon katsayısı eşdeğer olduğunu kanıtıdır ve edilen değeriyibulunabilirburada.y^i

belirlenmesi veya katsayısı bağımlı değişken açıklar daki model kuvvetini gösterir. Senin durumunda, R 2 = 0,089 . Bu, modelinizin bağımlı değişkeninizin varyasyonunun% 8,9'unu açıklayabildiğini gösterir. Ya da arasında korelasyon katsayısı y i ve donanımlı değerler y ı 0.089 olduğunu. Ne iyi teşkil R 2 disiplin bağlıdır.R2R2=0.089yiy^iR2

Son olarak, sorunuzun son kısmına. Durbin-Watson testine bağımlı ve bağımsız değişkenleriniz arasındaki korelasyon hakkında bir şey söyleyemezsiniz. Seri korelasyon için Durbin-Watson test testleri. Hata terimlerinizin karşılıklı olarak ilişkili olup olmadığını incelemek için yapılır.


9

değeri verilerinde çok varyasyon donatılmış modeline tarafından açıklandığını gösterir.R2

Düşük sizin çalışmada değer veri muhtemelen regresyon modeli sadece verilerde varyasyon (çok az) 8.9% açıklayabilir, yani yaygın etrafında regresyon çizgisini yayıldığını göstermektedir.R2

Doğrusal bir modelin uygun olup olmadığını kontrol ettiniz mi? Modelinizin verilerinize uygunluğunu değerlendirmek için kullanabileceğinizden, artıklarınızın dağılımına bir göz atın. İdeal olarak, artıklarınız değerlerinizle bir ilişki göstermemelidir ve eğer öyleyse değişkenlerinizi uygun bir şekilde yeniden ölçeklendirmeyi veya daha uygun bir modele uymayı düşünebilirsiniz.x


Teşekkürler @jed. Evet, artıkların normalliğini kontrol ettim ve her şey yolundaydı. Verilerin bu regresyon çizgisi etrafına geniş olarak yayılmasını önermeniz tam olarak doğrudur - veri noktaları yazılım tarafından çizilen regresyon çizgisi etrafında bir bulut gibi görünür.
Mog

1
Sitemize hoş geldiniz, @jed ve cevabınız için teşekkürler! Eğimin kendisinin işaretinden başka korelasyon hakkında neredeyse hiçbir şey söylemediğini unutmayın, çünkü korelasyon X ve Y'nin ölçüldüğü birimlere bağlı değildir, ancak eğim yapar.
whuber

1
@whuber değeri söylüyor yamaç yok değil değişkenler standardize sürece size dernek gücü hakkında bir şey söylemek. Shabbychefs cevabına bakın.
wolf.rauch

@ wolf.rauch gotcha
jedfrancis

@jed Cevabınızı düzeltmeniz iyi olur.
whuber

7

R2yxxyR2

Kısacası, bağımlı ve bağımsız değişkenlerin ölçeklerinin birbirine eşit olması gerektiğinden emin olmadıkça eğim 'uygunluk' modelinin iyi bir göstergesi değildir.


1

Zaten verilen cevapları seviyorum, ama bunları farklı (ve daha yanaktaki bir dil) yaklaşımıyla tamamlayayım.

Yüzdeki yumrukların baş ağrılarıyla ilişkili olup olmadığını bulmaya çalışan 1000 rastgele kişiden bir sürü gözlem topladığımızı varsayalım:

Headaches=β0+β1Punch_in_the_face+ε

ε , kirlenmiş nasıl bir şehir, uyku, kahve tüketiminin, vb eksikliği stres: Tüm atlanmış genel popülasyonda baş ağrısı üretmek değişkenleri içeren

β1R2

Grafiksel olarak, bu muhtemelen dik bir eğime benziyor ancak bu eğimin etrafında çok büyük bir varyasyon var.


0

@Macro'nun harika bir cevabı vardı.

Eğimin tahmini değeri tek başına size ilişkinin gücünü söylemez. İlişkinin gücü, hata varyansının boyutuna ve öngörücünün aralığına bağlıdır. Ayrıca, önemli bir pp-değeri size güçlü bir ilişki olduğunu söylemez; pp-değeri, eğimin tam olarak 0 olup olmadığını test etmektedir.

Ben sadece bir vaka OP açıklanmış gibi görünüyor göstermek için sayısal bir örnek eklemek istiyorum.

  • Düşük R,2
  • P değerinde önemli
  • Yakına eğim 1.0

    set.seed(6)
    y=c(runif(100)*50,runif(100)*50+10)
    x=c(rep(1,100),rep(10,100))
    plot(x,y)
    
    fit=lm(y~x)
    summary(fit)
    abline(fit)
    
    
    > summary(lm(y~x))
    
    Call:
    lm(formula = y ~ x)
    
    Residuals:
       Min     1Q Median     3Q    Max 
    -24.68 -13.46  -0.87  14.21  25.14 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  25.6575     1.7107  14.998  < 2e-16 ***
    x             0.9164     0.2407   3.807 0.000188 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 15.32 on 198 degrees of freedom
    Multiple R-squared:  0.0682,    Adjusted R-squared:  0.06349 
    F-statistic: 14.49 on 1 and 198 DF,  p-value: 0.0001877
    

enter image description here

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.