Çoklu için bu doğrusal regresyon kimliğini anlamanın zarif / anlayışlı bir yolu var mı


10

Doğrusal regresyonda, modele uyursak, hoş bir sonuçla karşılaştım.

E[Y]=β1X1+β2X2+c,

sonra, standardize edersek ve ortalarsak Y, X1 ve X2 veri,

R2=Cor(Y,X1)β1+Cor(Y,X2)β2.

Bu bana 2 değişkenli bir versiyon gibi geliyor R2=Cor(Y,X)2 için y=mx+c hoş olan regresyon.

Ama bildiğim tek kanıt zaten yapıcı veya anlayışlı değil (aşağıya bakın) ve yine de ona bakmak anlaşılabilir gibi geliyor.

Örnek düşünceler:

  • β1 ve β2 parametreleri bize 'oranını' verir X1 ve X2 içinde Yve böylece korelasyonlarının oranlarını alıyoruz ...
  • βs kısmi korelasyonlardır, R2 kare çoklu korelasyon ... korelasyonlar kısmi korelasyonlarla çarpılır ...
  • Önce dikgenleşirsek βolacak Cov/Var... bu sonuç geometrik bir anlam ifade ediyor mu?

Bu ipliklerin hiçbiri benim için hiçbir yere gitmiyor gibi görünüyor. Herkes bu sonucun nasıl anlaşılacağına dair net bir açıklama sağlayabilir mi?


Yetersiz Kanıt

R2=SSregSSTot=SSregN=(β1X1+β2X2)2=β12X12+β22X22+2β1β2X1X2

ve

Cor(Y,X1)β1+Cor(Y,X2)β2=YX1β1+YX2β2=β1X12+β2X1X2β1+β1X1X2+β2X22β2=β12X12+β22X22+2β1β2X1X2

QED.


Standart değişkenler kullanıyor olmalısınız, aksi takdirde R2 arasında kalması garanti edilmez 0 ve 1. Bu varsayım kanıtınızda ortaya çıksa da, başlangıçta açık hale getirmeye yardımcı olacaktır. Ben de gerçekten ne yaptığına şaşkınım:R2açıkçası sadece modelin bir işlevidir - verilerle ilgisi yoktur - yine de modeli bir şeye "sığdırdığınızı" söylemeye başlarsınız.
whuber

En iyi sonucunuz yalnızca X1 ve X2 mükemmel bir şekilde ilişkisiz olduğunda geçerli değil mi?
gung - Monica'yı eski

@gung Ben öyle düşünmüyorum - alttaki kanıt ne olursa olsun işe yarıyor gibi görünüyor. Bu sonuç beni de şaşırtıyor, dolayısıyla "açık bir anlayış kanıtı"
istiyor

@whuber "modelin tek başına işlevi" ile ne demek istediğinden emin değilim? BasitçeR2iki öngörücü değişkenli basit OLS için. Yani bu 2 değişkenli versiyonudur.R2=Cor(Y,X)2
Korone

Senin βiparametreler veya tahminlerdir.
whuber

Yanıtlar:


9

Şapka matrisi idempotenttir.

(Bu, OLS'nin yanıt vektörünün değişkenlerin kapsadığı alana dik bir projeksiyon olduğunu belirtmek için lineer-cebirsel bir yoldur.)


Tanım gereği hatırlayın

R2=ESSTSS

nerede

ESS=(Y^)Y^

(ortalanmış) öngörülen değerlerin karelerinin toplamıdır ve

TSS=YY

(ortalanmış) yanıt değerlerinin karelerinin toplamıdır. standardizasyonY önceden birim varyans da ima eder

TSS=YY=n.

Tahmin edilen katsayıların

β^=(XX)XY,

nereden

Y^=Xβ^=X(XX)XY=HY

nerede H projeksiyonunu etkileyen "hat matrisi" Y en küçük karelere uygun Y^. Simetriktir (ki bu haliyle çok açıktır) ve idempotenttir . İşte bu sonuca aşina olmayanlar için ikincisinin bir kanıtı. Sadece parantezleri karıştırmak:

HH=HH=(X(XX)X)(X(XX)X)=X(XX)(XX)(XX)X=X(XX)X=H.

bu nedenle

R2=ESSTSS=1n(Y^)Y^=1nYHHY=1nYHY=(1nYX)β^.

Ortadaki önemli hamle, şapka matrisinin idempotenceini kullandı. Sağ taraf sihirli formülünüz çünkü1nYX arasındaki korelasyon katsayılarının (sıra) vektörüdür Y ve sütunları X.


(+1) Çok güzel bir yazı. Ama neden her yer ^{-}yerine ^{-1}?
amip

1
@amoeba Bu genelleştirilmiş bir ters , orayaXXtekil olabilir.
whuber

4
@amoeba Penrose, orijinal makalesinde ( Matrisler için Genelleştirilmiş Ters , 1954) gösterimi kullandıA. Ne hoşuma ne deA+ gösterim çünkü konjugat, transpozisyon veya konjugat transkripsiyon ile çok kolay karıştırılırken, A notasyon, sıradan okuyucunun bunu düşünmekten kurtulabileceği bir tersi A1eğer isterse. Çok iyi bir okuyucusun - ama fark ettiğin için teşekkürler.
whuber

1
İlginç ve ilgi çekici motivasyon, ancak bu gösterimin zaman zaman başka bir yerde kullanılan bir şey mi yoksa kendi icadınız mı olduğunu sorabilir miyim?
amip

5
@ amoeba: Evet, bu gösterim doğrusal modeldeki Graybill'in klasik metinleri de dahil olmak üzere başka bir yerde görünür.
kardinal

5

Aşağıdaki üç formül iyi bilinmektedir, doğrusal regresyon ile ilgili birçok kitapta bulunurlar. Bunları türetmek zor değil.

β1=rYX1rYX2rX1X21rX1X22

β2=rYX2rYX1rX1X21rX1X22

R2=rYX12+rYX222rYX1rYX2rX1X21rX1X22

İki beta'yı denkleminize koyarsanız R2=rYX1β1+rYX2β2, R-karesi için yukarıdaki formülü alırsınız.


İşte geometrik bir "içgörü". Aşağıda regresyonu gösteren iki resim bulunmaktadır.Y tarafından X1 ve X2. Bu tür bir gösterim, konu uzayında vektör olarak değişkenler olarak bilinir (lütfen ne ile ilgili olduğunu okuyun ). Resimler, üç değişkenin tümü ortalandıktan sonra çizilir ve böylece (1) her vektörün uzunluğu = st. ilgili değişkenin sapması ve (2) her iki vektör arasındaki açı (kosinüsü) = ilgili değişkenler arasındaki korelasyon.

enter image description here

Y^ regresyon öngörüsüdür ( Y "X düzlemine"); e hata terimidir; cosYY^=|Y^|/|Y|çoklu korelasyon katsayısı.

Soldaki resim eğim koordinatlarını gösterirY^ değişkenlerde X1 ve X2. Bu koordinatların regresyon katsayıları ile ilişkili olduğunu biliyoruz. Yani, koordinatlar:b1|X1|=b1σX1 and b2|X2|=b2σX2.

And the right picture shows corresponding perpendicular coordinates. We know that such coordinates relate the zero order correlation coefficients (these are cosines of orthogonal projections). If r1 is the correlation between Y and X1 and r1 is the correlation between Y^ and X1 then the coordinate is r1|Y|=r1σY=r1|Y^|=r1σY^. Likewise for the other coordinate, r2|Y|=r2σY=r2|Y^|=r2σY^.

So far it were general explanations of linear regression vector representation. Now we turn for the task to show how it may lead to R2=r1β1+r2β2.

First of all, recall that in their question @Corone put forward the condition that the expression is true when all the three variables are standardized, that is, not just centered but also scaled to variance 1. Then (i.e. implying |X1|=|X2|=|Y|=1 to be the "working parts" of the vectors) we have coordinates equal to: b1|X1|=β1; b2|X2|=β2; r1|Y|=r1; r2|Y|=r2; as well as R=|Y^|/|Y|=|Y^|. Redraw, under these conditions, just the "plane X" of the pictures above:

enter image description here

On the picture, we have a pair of perpendicular coordinates and a pair of skew coordinates, of the same vector Y^ of length R. There exist a general rule to obtain perpendicular coordinates from skew ones (or back): P=SC, where P is points X axes matrix of perpendicular ones; S is the same sized matrix of skew ones; and C are the axes X axes symmetric matrix of angles (cosines) between the nonorthogonal axes.

X1 and X2 are the axes in our case, with r12 being the cosine between them. So, r1=β1+β2r12 and r2=β1r12+β2.

Substitute these rs expressed via βs in the @Corone's statement R2=r1β1+r2β2, and you'll get that R2=β12+β22+2β1β2r12, - which is true, because it is exactly how a diagonal of a parallelogram (tinted on the picture) is expressed via its adjacent sides (quantity β1β2r12 being the scalar product).

This same thing is true for any number of predictors X. Unfortunately, it is impossible to draw the alike pictures with many predictors.


1
+1 nice to see it constructed this way as well, but this doesn't add as much insight compared to whuber's answer
Korone

2
@Corone, I added some "insight" which you might take.
ttnphns

1
+1 Really cool (after the update). I thought that invoking "general rule" of converting between coordinates is a bit of an overkill (and for me was only confusing); to see that e.g. r1=β1+β2r12 one only needs to remember the definition of cosine and look at one of the right triangles.
amoeba

Really cool edit, switched accepted.
Korone
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.