Doğrusal regresyonun istatistiksel olarak anlamlı olması, ancak çok düşük r karesi olması ne anlama gelir?


Yanıtlar:


27

Bu, verilerdeki varyansın küçük bir bölümünü açıklayabileceğiniz anlamına gelir. Örneğin, bir üniversite derecesinin maaşları etkilediğini belirtebilirsiniz, ancak aynı zamanda sadece küçük bir faktördür. Maaşınızı etkileyen birçok başka faktör vardır ve üniversite derecesinin katkısı çok küçüktür, ancak tespit edilebilir.

Pratik anlamda, ortalama olarak kolej derecesinin maaşını yılda 500 $ artırdığı, insanların maaşlarının standart sapmasının 10K $ olduğu anlamına gelebilir . Bu nedenle, üniversite eğitimi almış birçok insanın eğitimsiz olanlardan daha düşük maaşları vardır ve modelinizin tahmin için değeri düşüktür.


11

"İndirgenemez hata yüksek" anlamına gelir, yani yapabileceğimiz en iyi şey (doğrusal model ile) sınırlıdır. Örneğin, aşağıdaki veri kümesi:

data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)

Not: Bu veri kümesindeki hile, bir değeri verildiğinde , çok fazla farklı y değerinin olması ve hepsini tatmin etmek için iyi bir tahmin yapamayacağımızdır. Aynı zamanda, x ve y arasında "güçlü" doğrusal korelasyonlar vardır . Doğrusal bir modele uyursak, önemli katsayılar elde edeceğiz, ancak düşük R kare.xyxy

fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)

Call:
lm(formula = data[, 2] ~ data[, 1])

Residuals:
     Min       1Q   Median       3Q      Max 
-203.331  -59.647   -1.252   68.103  195.669 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  123.910      8.428   14.70   <2e-16 ***
data[, 1]     80.421      4.858   16.56   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared:  0.2814,    Adjusted R-squared:  0.2804 
F-statistic: 274.1 on 1 and 700 DF,  p-value: < 2.2e-16

resim açıklamasını buraya girin



3

Doğrusal regresyonun istatistiksel olarak anlamlı olması, ancak çok düşük r karesi olması ne anlama gelir?

Bağımsız ve bağımlı değişken arasında doğrusal bir ilişki olduğu, ancak bu ilişkiden bahsetmeye değmeyeceği anlamına gelir.

Bununla birlikte, ilişkinin anlamlılığı, ne incelediğinize çok bağlıdır, ancak genel olarak, istatistiksel anlamlılığın alaka düzeyi ile karıştırılmaması gerektiği anlamına gelebilir.

Yeterince büyük bir örneklem büyüklüğü ile, en önemsiz ilişkilerin bile istatistiksel olarak anlamlı olduğu bulunmuştur.


1
Aslında doğrusal regresyon parametrelerde doğrusal anlamına gelir. Ham bağımlı değişkenler dönüştürülebilir ve hala doğrusal bir regresyonunuz olur. İstatistiksel önem olduğunu düşündüğünüz şeyden biraz şaşkınım. Bana göre parametre tahminleri büyük.
Michael R.Chernick

Anlamlılık, sonuçların tamamen tesadüfen olma olasılığı ve yordayıcılar ile bağımlı değişken arasında bir ilişki olmaması olasılığını ifade eder. küçük bir örneklem boyutunuz varsa ve sonuçlar önemliyse, evet, parametre tahminleri büyük olur. ancak, gülünç derecede büyük bir örnekle, çok küçük bir parametre tahminiyle bile önemli sonuçlar elde edebilirsiniz. burada deneyin: danielsoper.com/statcalc/calculator.aspx
faustus

Söyledikleriniz, çıkarımın ne olduğuna dair genel bir açıklama gibi geliyor. Ancak istatistiksel anlamlılık, kritik değer (ler) in analistin seçtiği belirli bir önem seviyesine bağlı olduğu kritik bir değeri / değerleri aşmakla ilgili özel bir terimdir (örn. 0,05. 0,01 vb.). Örnek büyüklüğü başka bir faktördür. Regresyonda birkaç hipotezi test ediyorsunuz (bireysel regresyon katsayılarının önemi ve ilişkinin olmadığı testi. Ayrıca birkaç olası model arasında seçim yapan aşamalı prosedürler yaparak da karmaşık olabilir
Michael R. Chernick

1
İstatistik, kısmen bilim ve kısmen sanattır, ancak matematiksel ilkelere dayanır.
Michael R.Chernick

2
@MichaelChernik Biraz ayrıntı verebilir misiniz? Faustus'a katılıyorum (aslında benzer bir cevap verdim) ve fikrinizi anlayamıyorum. Doğrusal regresyonda, anlamlılık ((bireysel regresyon katsayılarının veya tüm regresyonun önemi) ilişkisizlik hipotezine göre test edilir (tam olarak 0 katsayısı). küçük. (devam ediyor)
Luca Citi

2

Bunu ifade etmenin başka bir yolu da, nüfus düzeyinde bir değişikliği güvenle değil, bireysel düzeyde tahmin edebileceğiniz anlamına gelir. yani, bireysel verilerde yüksek bir varyans vardır, ancak yeterince büyük bir örnek kullanıldığında, genel olarak altta yatan bir etki görülebilir. Bazı Hükümet sağlık tavsiyelerinin bireye yararsız olmasının bir nedeni budur. Hükümetler bazen harekete geçme ihtiyacını hissederler çünkü bazı faaliyetlerin daha fazlasının genel olarak nüfus içinde daha fazla ölüme yol açtığını görebilirler. Bu yaşamları 'kurtaran' tavsiye veya politikalar üretirler. Bununla birlikte, bireysel yanıtlardaki yüksek varyans nedeniyle, bir bireyin kişisel olarak herhangi bir fayda görmesi çok olası olmayabilir (veya daha da kötüsü, belirli genetik koşullar nedeniyle, kendi sağlıkları aslında ters tavsiyeye uymaktan daha iyi olurdu, ancak bu, nüfus kümelenmesinde gizlidir). Birey 'sağlıksız' faaliyetten yararlanırsa (örn. Zevk), tavsiyeye uymak yaşamları boyunca bu kesin zevki terk ettikleri anlamına gelebilir, ancak durumdan muzdarip olup olmadıklarını kişisel olarak değiştirmez.


Çok güzel bir örnek!
kjetil b halvorsen

R2
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.