arasındaki ilişki


10

OLS regresyonlarının ile ilgili çok temel bir soruR,2

  1. OLS regresyonunu çalıştırın y ~ x1, bir , diyelim ki 0.3R2
  2. OLS regresyonunu çalıştırın y ~ x2, başka bir , diyelim 0.4R2
  3. şimdi y ~ x1 + x2 gerilemesi yapıyoruz, bu regresyonun R karesi ne değer olabilir?

Bence çoklu regresyon için 0.4'den az olmaması gerektiği açıktır , ancak 0.7'den fazla olması mümkün mü?R2


2
İpucu: 1.0 kadar yüksek olabilir. Neden? (Geometrik düşünün. Ya da özellikle birim daire hakkında.)
kardinal

Yanıtlar:


4

İkinci regresör, basitçe ilkinin bağımlı değişkente açıklamayı başaramadığı şeyi telafi edebilir. Sayısal bir örnek:

Üret x1Genelliği kaybetmeden bir standart normal regresör, örnek büyüklüğü 20 olarak almakyi=0.5x1i+ui, nerede ui dır-dir N(0,1)de. Şimdi, ikinci regressörü x2basitçe bağımlı değişken ve ilk regresör arasındaki fark olarak kabul edin.

n <- 20 
x1 <- rnorm(n)

y <- .5*x1 + rnorm(n)

x2 <- y - x1
summary(lm(y~x1))$r.squared
summary(lm(y~x2))$r.squared
summary(lm(y~x1+x2))$r.squared

Teşekkürler! Ben r kare yanlış bir anlayış vardı. Ben o x1 + x2 = yzaman summary(lm(y~x1))$r.squared + summary(lm(y~x2))$r.squared1'den az olmamalıdır düşündüm ama açıkça yanılıyorum ..
Olivier Ma

3

Hangi değişkenin önce modele girdiğine bağlı olarak 0.3 veya 0.4 olan alt sınır dışında, söyleyebileceğiniz çok şey yoktur. Ne kadarR,2artış büyük ölçüde ikinci değişkenin modele getirdiği bilgilere bağlıdır. Bilgi ile, elbette yanıtta açıklanan varyasyonu kastediyoruz.

Bu konuda kritik olan bir kavram var ve bu da yordayıcılar arasındaki korelasyon . Eğer korelasyon büyükse, yeni değişken sadece modele hiçbir şey getirmeyecek, aynı zamanda mevcut değişkenleriniz için çıkarımı da zorlaştıracaktır, çünkü tahminler kesinleşmeyecektir (çoklu doğrusallık). İdeal olarak yeni değişkenin diğerlerine dik olmasını tercih etmeliyiz . Bunun gözlemsel çalışmalarda gerçekleşme şansı düşüktür, ancak örneğin kendi denemenizi oluştururken kontrollü ortamlarda gerçekleştirilebilir.

Ancak bir değişkenin modele getireceği yeni bilgileri tam olarak nasıl ölçersiniz? Tüm bu hesaba katar Geniş ölçüde kullanılan ölçüdür kısmi R,2. Doğrusal modelin ANOVA'sına aşina iseniz, bu, modelinize bu değişkeni dahil ederek gerçekleştireceğiniz Hataların Kareleri Toplamındaki oransal düşüşten başka bir şey değildir . Yüksek yüzdeler arzu edilirken, düşük yüzdeler muhtemelen bunun doğru hareket şekli olup olmadığını düşünmenizi sağlayacaktır.

@Cardinal'in yorumlarda belirttiği gibi, yeni belirleme katsayınız 1 kadar yüksek olabilir. 0.400001 kadar düşük olabilir. Ek bilgi olmadan anlatmanın bir yolu yoktur.


@JohnK, neden 0,4'ten STRICTLY daha büyük olması gerektiğini açıklar mısınız? Regresyonun geometrik yorumu burada yardımcı olur mu?
Dnaiel

@Dnaiel Tespit katsayısı, modeldeki değişkenlerin sayısına göre azalmamaktadır.
JohnK

3

Çoklu doğrusal regresyonda belirleme katsayısı: Çoklu doğrusal regresyonda belirleme katsayısı, ikinci dereceden form kullanılarak değişkenler için ikili korelasyonlar cinsinden yazılabilir:

R,2=ry,xTrx,x-1ry,x,

nerede ry,x cevap vektörü ve açıklayıcı vektörlerin her biri arasındaki korelasyonların vektörüdür ve rx,xaçıklayıcı vektörler arasındaki korelasyon matrisidir (bunun hakkında daha fazla bilgi için bu ilgili soruya bakınız ). İki değişkenli bir regresyon durumunda:

R,2=[rY,X1rY,X2]T[1rX1,X2rX1,X21]-1[rY,X1rY,X2]=11-rX1,X22[rY,X1rY,X2]T[1-rX1,X2-rX1,X21][rY,X1rY,X2]=11-rX1,X22(rY,X12+rY,X22-2rX1,X2rY,X1rY,X2).

Sorunuzdaki tek değişkenli korelasyonların yönlerini belirtmediniz, bu nedenle genelliği kaybetmeden, Dsgn(rY,X1)sgn(rY,X2){-1,+1}. Değerlerinizi değiştirmerY,X12=0.3 ve rY,X22=0.4 verim:

R,2=0.7-20.12DrX1,X21-rX1,X22.

Mümkün R,2>0.7, çünkü iki değişkenin birleştirilmiş bilgisinin parçalarının toplamından daha fazla olması mümkündür. Bu ilginç fenomene 'geliştirme' denir (bakınız örn. Lewis ve Escobar 1986 ).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.