Bu iyi bir soru, çünkü "farklı miktarlar" bir açıklama gibi görünmüyor.
Kullanmaktan kaçınmak için iki önemli neden var R2Bu modelleri karşılaştırmak için: çok kaba ( uyum iyiliğini gerçekten değerlendirmez ) ve modellerden en az biri için uygun olmayacaktır. Bu cevap bu ikinci konuyu ele almaktadır.
Teorik Tedavi
R2model artıklarının varyansını cevapların varyansı ile karşılaştırır. Varyans, bir uyumdan ortalama bir kare katkı sapmasıdır. Bu nedenle, anlayabilirizR2 iki tepki modelini karşılaştırarak y.
"Temel" modeli olduğunu
yi=μ+δi(1)
nerede μ bir parametredir (teorik ortalama yanıt) ve δi bağımsız rastgele "hatalar", her biri sıfır ortalama ve ortak varyans τ2.
Doğrusal regresyon modeli vektörleri tanıtırxi açıklayıcı değişkenler olarak:
yi=β0+xiβ+εi.(2)
Numara β0 ve vektör βparametrelerdir (kesişme ve "eğimler"). εi yine her biri sıfır ortalama ve ortak varyansa sahip bağımsız rastgele hatalardır σ2.
R2 varyanstaki azalmayı tahmin eder, τ2−σ2, orijinal varyansa kıyasla τ2.
Logaritmalar aldığınızda ve modele sığması için en küçük kareler kullandığınızda , formun bir ilişkisini dolaylı olarak karşılaştırıyorsunuzdur.
log(yi)=ν+ζi(1a)
formdan birine
log(yi)=γ0+xiγ+ηi.(2a)
Bunlar tıpkı modeller gibi (1) ve (2)ancak günlük yanıtlarıyla. Yine de ilk iki modele denk değiller. Örneğin,(2a) verirdi
yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).
Hata terimleri exp(ηi)şimdi altta yatan ilişkiyi çarpyi=exp(γ0+xiγ). Sonuç olarak cevapların varyansları
Var(yi)=exp(γ0+xiγ)2Var(eηi).
Varyanslar xi. Bu model değil(2), varyansların sabit bir değere eşit olduğunu varsayan σ2.
Genellikle, bu model setlerinden sadece biri verilerin makul bir açıklaması olabilir. İkinci seti uygulama(1a) ve (2a) ilk set ne zaman (1) ve (2)iyi bir modeldir, ya da ikincisi iyi olduğunda, doğrusal olmayan, heterossedastik bir veri kümesiyle çalışmak anlamına gelir, bu nedenle doğrusal bir regresyona zayıf bir şekilde uymalıdır. Bu durumlardan herhangi biri söz konusu olduğunda, daha iyi modelin daha büyük olanı sergilemesini bekleyebiliriz.R2. Ancak, durumun ikisi de değilse ne olur? Hala daha büyükR2 daha iyi modeli belirlememize yardımcı olmak için?
analiz
Bir anlamda bu iyi bir soru değil, çünkü her iki model de uygun değilse üçüncü bir model bulmalıyız. Ancak, önümüzdeki sorun,R2bu kararlılığı yapmamıza yardımcı oluyor. Dahası, birçok insan önce arasındaki ilişkinin şekli hakkında düşünüyorx ve y- doğrusal mı, logaritmik mi, başka bir şey mi - regresyon hatalarının özellikleri hakkında endişe duymadan εi veya ηi. Bu nedenle, modelimizin ilişkiyi doğru bulduğu, ancak hata yapısı hakkında yanlış olduğu veya tersi olduğu bir durumu ele alalım .
Böyle bir model (yaygın olarak ortaya çıkar), üstel bir ilişkiye uyan en küçük karelerdir,
yi=exp(α0+xiα)+θi.(3)
Şimdi logaritması ya, doğrusal işlevix, de olduğu gibi (2a), ancak hata terimleriθikatkı maddesi , olduğu gibi(2). Bu gibi durumlardaR2 arasında yanlış bir ilişki olan modeli seçmemize yol açabilir x ve y.
İşte modelin bir örneği ( 3 ). Var300 için gözlemler xben (1-vektör arasında eşit olarak dağılmış 1.0 ve 1.6). Sol panel orijinali gösterir( x , y) veriler sağ panelde ( x , günlük( y) )dönüştürülmüş veri. Kesikli kırmızı çizgiler gerçek altta yatan ilişkiyi çizerken, düz mavi çizgiler en küçük kareleri gösterir. Veriler ve gerçek ilişki her iki panelde de aynıdır: sadece modeller ve uyumları farklıdır.
Sağdaki log yanıtlarına uyum açıkça iyidir: neredeyse gerçek ilişkiye rastlar ve her ikisi de doğrusaldır. Soldaki orijinal tepkilere uyum açıkça daha kötüdür: gerçek ilişki üstelken doğrusaldır. Ne yazık ki, oldukça büyük bir değere sahiptir.R,2: 0.70 nazaran 0,56. Bu yüzden güvenmemeliyizR,2Bizi daha iyi bir modele yönlendirmek için. Bu yüzden uygun olduğunda bile memnun olmamalıyızR,2 "yüksek" tir (ve birçok uygulamada, 0.70 gerçekten yüksek sayılır).
Bu arada, bu modelleri değerlendirmenin daha iyi bir yolu , uyum iyiliği testlerini (sağdaki log modelinin üstünlüğünü gösterecek) ve artıkların durağanlığı için teşhis grafikleri (her iki modelle ilgili sorunları vurgulayacaktır) içerir. Bu tür değerlendirmeler doğal olarak yagünlük( y) veya doğrudan modele ( 3 ) maksimum olasılık veya doğrusal olmayan en küçük kareler yöntemleri kullanılarak sığması gerekir.