Modelin tek tek veri noktalarını tahmin etmede kötü olduğu, ancak kesin bir eğilim oluşturduğu anlamına geldiğini anlıyorum (örn. X yükseldiğinde y yükselir).
Modelin tek tek veri noktalarını tahmin etmede kötü olduğu, ancak kesin bir eğilim oluşturduğu anlamına geldiğini anlıyorum (örn. X yükseldiğinde y yükselir).
Yanıtlar:
Bu, verilerdeki varyansın küçük bir bölümünü açıklayabileceğiniz anlamına gelir. Örneğin, bir üniversite derecesinin maaşları etkilediğini belirtebilirsiniz, ancak aynı zamanda sadece küçük bir faktördür. Maaşınızı etkileyen birçok başka faktör vardır ve üniversite derecesinin katkısı çok küçüktür, ancak tespit edilebilir.
Pratik anlamda, ortalama olarak kolej derecesinin maaşını yılda 500 $ artırdığı, insanların maaşlarının standart sapmasının 10K $ olduğu anlamına gelebilir . Bu nedenle, üniversite eğitimi almış birçok insanın eğitimsiz olanlardan daha düşük maaşları vardır ve modelinizin tahmin için değeri düşüktür.
"İndirgenemez hata yüksek" anlamına gelir, yani yapabileceğimiz en iyi şey (doğrusal model ile) sınırlıdır. Örneğin, aşağıdaki veri kümesi:
data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)
Not: Bu veri kümesindeki hile, bir değeri verildiğinde , çok fazla farklı y değerinin olması ve hepsini tatmin etmek için iyi bir tahmin yapamayacağımızdır. Aynı zamanda, x ve y arasında "güçlü" doğrusal korelasyonlar vardır . Doğrusal bir modele uyursak, önemli katsayılar elde edeceğiz, ancak düşük R kare.
fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)
Call:
lm(formula = data[, 2] ~ data[, 1])
Residuals:
Min 1Q Median 3Q Max
-203.331 -59.647 -1.252 68.103 195.669
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 123.910 8.428 14.70 <2e-16 ***
data[, 1] 80.421 4.858 16.56 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared: 0.2814, Adjusted R-squared: 0.2804
F-statistic: 274.1 on 1 and 700 DF, p-value: < 2.2e-16
Doğrusal regresyonun istatistiksel olarak anlamlı olması, ancak çok düşük r karesi olması ne anlama gelir?
Bağımsız ve bağımlı değişken arasında doğrusal bir ilişki olduğu, ancak bu ilişkiden bahsetmeye değmeyeceği anlamına gelir.
Bununla birlikte, ilişkinin anlamlılığı, ne incelediğinize çok bağlıdır, ancak genel olarak, istatistiksel anlamlılığın alaka düzeyi ile karıştırılmaması gerektiği anlamına gelebilir.
Yeterince büyük bir örneklem büyüklüğü ile, en önemsiz ilişkilerin bile istatistiksel olarak anlamlı olduğu bulunmuştur.
Bunu ifade etmenin başka bir yolu da, nüfus düzeyinde bir değişikliği güvenle değil, bireysel düzeyde tahmin edebileceğiniz anlamına gelir. yani, bireysel verilerde yüksek bir varyans vardır, ancak yeterince büyük bir örnek kullanıldığında, genel olarak altta yatan bir etki görülebilir. Bazı Hükümet sağlık tavsiyelerinin bireye yararsız olmasının bir nedeni budur. Hükümetler bazen harekete geçme ihtiyacını hissederler çünkü bazı faaliyetlerin daha fazlasının genel olarak nüfus içinde daha fazla ölüme yol açtığını görebilirler. Bu yaşamları 'kurtaran' tavsiye veya politikalar üretirler. Bununla birlikte, bireysel yanıtlardaki yüksek varyans nedeniyle, bir bireyin kişisel olarak herhangi bir fayda görmesi çok olası olmayabilir (veya daha da kötüsü, belirli genetik koşullar nedeniyle, kendi sağlıkları aslında ters tavsiyeye uymaktan daha iyi olurdu, ancak bu, nüfus kümelenmesinde gizlidir). Birey 'sağlıksız' faaliyetten yararlanırsa (örn. Zevk), tavsiyeye uymak yaşamları boyunca bu kesin zevki terk ettikleri anlamına gelebilir, ancak durumdan muzdarip olup olmadıklarını kişisel olarak değiştirmez.