Çoklu için bu doğrusal regresyon kimliğini anlamanın zarif / anlayışlı bir yolu var mı

Doğrusal regresyonda, modele uyursak, hoş bir sonuçla karşılaştım.

E [Y] = β_{1} X_{1} + β_{2} X_{2} + c,

$E[Y] = \beta_1 X_1 + \beta_2 X_2 + c,$

sonra, standardize edersek ve ortalarsak $Y$ , $X_1$ ve $X_2$ veri,

R^{2} = C o r (Y, X_{1}) β_{1} + C o r (Y, X_{2}) β_{2} .

$R^2 = \mathrm{Cor}(Y,X_1) \beta_1 + \mathrm{Cor}(Y, X_2) \beta_2.$

Bu bana 2 değişkenli bir versiyon gibi geliyor $R^2 = \mathrm{Cor}(Y,X)^2$ için $y=mx+c$ hoş olan regresyon.

Ama bildiğim tek kanıt zaten yapıcı veya anlayışlı değil (aşağıya bakın) ve yine de ona bakmak anlaşılabilir gibi geliyor.

Örnek düşünceler:

$\beta_1$ ve $\beta_2$ parametreleri bize 'oranını' verir $X_1$ ve $X_2$ içinde $Y$ ve böylece korelasyonlarının oranlarını alıyoruz ...
$\beta$ s kısmi korelasyonlardır, $R^2$ kare çoklu korelasyon ... korelasyonlar kısmi korelasyonlarla çarpılır ...
Önce dikgenleşirsek $\beta$ olacak $\mathrm{Cov}/\mathrm{Var}$ ... bu sonuç geometrik bir anlam ifade ediyor mu?

Bu ipliklerin hiçbiri benim için hiçbir yere gitmiyor gibi görünüyor. Herkes bu sonucun nasıl anlaşılacağına dair net bir açıklama sağlayabilir mi?

Yetersiz Kanıt

R^{2} = \frac{S S_{r e g}}{S S_{T o t}} = \frac{S S_{r e g}}{N} = ⟨ (β_{1} X_{1} + β_{2} X_{2})^{2} ⟩ = ⟨ β_{1}^{2} X_{1}^{2} ⟩ + ⟨ β_{2}^{2} X_{2}^{2} ⟩ + 2 ⟨ β_{1} β_{2} X_{1} X_{2} ⟩

$\begin{equation} R^2 = \frac{SS_{reg}}{SS_{Tot}} = \frac{SS_{reg}}{N} = \langle(\beta_1 X_1 + \beta_2 X_2)^2\rangle \\= \langle\beta_1^2 X_1^2\rangle + \langle\beta_2^2 X_2^2\rangle + 2\langle\beta_1\beta_2X_1X_2\rangle \end{equation}$

C o r (Y, X_{1}) β_{1} + C o r (Y, X_{2}) β_{2} = ⟨ Y X_{1} ⟩ β_{1} + ⟨ Y X_{2} ⟩ β_{2} = ⟨ β_{1} X_{1}^{2} + β_{2} X_{1} X_{2} ⟩ β_{1} + ⟨ β_{1} X_{1} X_{2} + β_{2} X_{2}^{2} ⟩ β_{2} = ⟨ β_{1}^{2} X_{1}^{2} ⟩ + ⟨ β_{2}^{2} X_{2}^{2} ⟩ + 2 ⟨ β_{1} β_{2} X_{1} X_{2} ⟩

$\begin{equation} \mathrm{Cor}(Y,X_1) \beta_1 + \mathrm{Cor}(Y, X_2) \beta_2 = \langle YX_1\rangle\beta_1 + \langle Y X_2\rangle \beta_2\\ =\langle \beta_1 X_1^2 + \beta_2 X_1 X_2\rangle \beta_1 + \langle \beta_1 X_1 X_2 + \beta_2 X_2^2\rangle \beta_2\\ =\langle \beta_1^2 X_1^2\rangle + \langle \beta_2^2 X_2^2 \rangle + 2\langle \beta_1 \beta_2 X_1 X_2\rangle \end{equation}$

QED.

— Korone
kaynak

Standart değişkenler kullanıyor olmalısınız, aksi takdirde

R^{2}

$R^2$ arasında kalması garanti edilmez

0

$0$ ve

1

$1$ . Bu varsayım kanıtınızda ortaya çıksa da, başlangıçta açık hale getirmeye yardımcı olacaktır. Ben de gerçekten ne yaptığına şaşkınım:

R^{2}

$R^2$ açıkçası sadece modelin bir işlevidir - verilerle ilgisi yoktur - yine de modeli bir şeye "sığdırdığınızı" söylemeye başlarsınız.

— whuber

En iyi sonucunuz yalnızca X1 ve X2 mükemmel bir şekilde ilişkisiz olduğunda geçerli değil mi?

— gung - Monica'yı eski

@gung Ben öyle düşünmüyorum - alttaki kanıt ne olursa olsun işe yarıyor gibi görünüyor. Bu sonuç beni de şaşırtıyor, dolayısıyla "açık bir anlayış kanıtı"

— istiyor

@whuber "modelin tek başına işlevi" ile ne demek istediğinden emin değilim? Basitçe

R^{2}

$R^2$ iki öngörücü değişkenli basit OLS için. Yani bu 2 değişkenli versiyonudur.

R^{2} = C o r (Y, X)^{2}

$R^2 = Cor(Y,X)^2$

— Korone

Senin

β_{i}

$\beta_i$ parametreler veya tahminlerdir.

— whuber

Yanıtlar:

Şapka matrisi idempotenttir.

(Bu, OLS'nin yanıt vektörünün değişkenlerin kapsadığı alana dik bir projeksiyon olduğunu belirtmek için lineer-cebirsel bir yoldur.)

Tanım gereği hatırlayın

R^{2} = \frac{E S S}{T S S}

$R^2 = \frac{ESS}{TSS}$

nerede

E S S = (\hat{Y})^{'} \hat{Y}

$ESS = (\hat Y)^\prime \hat Y$

(ortalanmış) öngörülen değerlerin karelerinin toplamıdır ve

T S S = Y^{'} Y

$TSS = Y^\prime Y$

(ortalanmış) yanıt değerlerinin karelerinin toplamıdır. standardizasyon $Y$ önceden birim varyans da ima eder

T S S = Y^{'} Y = n .

$TSS = Y^\prime Y = n.$

Tahmin edilen katsayıların

\hat{β} = (X^{'} X)^{-} X^{'} Y,

$\hat\beta = (X^\prime X)^{-} X^\prime Y,$

nereden

\hat{Y} = X \hat{β} = X (X^{'} X)^{-} X^{'} Y = H Y

$\hat Y = X \hat \beta = X (X^\prime X)^{-} X^\prime Y = H Y$

nerede $H$ projeksiyonunu etkileyen "hat matrisi" $Y$ en küçük karelere uygun $\hat Y$ . Simetriktir (ki bu haliyle çok açıktır) ve idempotenttir . İşte bu sonuca aşina olmayanlar için ikincisinin bir kanıtı. Sadece parantezleri karıştırmak:

\begin{aligned} H^{'} H = H H & = (X (X^{'} X)^{-} X^{'}) (X (X^{'} X)^{-} X^{'}) \\ = X (X^{'} X)^{-} (X^{'} X) (X^{'} X)^{-} X^{'} \\ = X (X^{'} X)^{-} X^{'} = H . \end{aligned}

$\eqalign{H^\prime H = H H &=\left( X (X^\prime X)^{-} X^\prime\right)\left(X (X^\prime X)^{-} X^\prime \right) \\ &= X (X^\prime X)^{-} \left(X^\prime X \right) (X^\prime X)^{-} X^\prime \\ &= X (X^\prime X)^{-} X^\prime = H. }$

bu nedenle

R^{2} = \frac{E S S}{T S S} = \frac{1}{n} (\hat{Y})^{'} \hat{Y} = \frac{1}{n} Y^{'} H^{'} H Y = \frac{1}{n} Y^{'} H Y = (\frac{1}{n} Y^{'} X) \hat{β} .

$R^2 = \frac{ESS}{TSS} = \frac{1}{n} (\hat Y)^\prime \hat Y = \frac{1}{n}Y^\prime H^\prime H Y = \frac{1}{n}Y^\prime H Y = \left(\frac{1}{n}Y^\prime X\right) \hat \beta.$

Ortadaki önemli hamle, şapka matrisinin idempotenceini kullandı. Sağ taraf sihirli formülünüz çünkü $\frac{1}{n}Y^\prime X$ arasındaki korelasyon katsayılarının (sıra) vektörüdür $Y$ ve sütunları $X$ .

— whuber
kaynak

(+1) Çok güzel bir yazı. Ama neden her yer ^{-}yerine ^{-1}?

— amip

@amoeba Bu genelleştirilmiş bir ters , oraya

X^{'} X

$X^\prime X$ tekil olabilir.

— whuber

@amoeba Penrose, orijinal makalesinde ( Matrisler için Genelleştirilmiş Ters , 1954) gösterimi kullandı

A^{†}

$A^\dagger$ . Ne hoşuma ne de

A^{+}

$A^{+}$ gösterim çünkü konjugat, transpozisyon veya konjugat transkripsiyon ile çok kolay karıştırılırken,

A^{-}

$A^{-}$ notasyon, sıradan okuyucunun bunu düşünmekten kurtulabileceği bir tersi

A^{- 1}

$A^{-1}$ eğer isterse. Çok iyi bir okuyucusun - ama fark ettiğin için teşekkürler.

— whuber

İlginç ve ilgi çekici motivasyon, ancak bu gösterimin zaman zaman başka bir yerde kullanılan bir şey mi yoksa kendi icadınız mı olduğunu sorabilir miyim?

— amip

@ amoeba: Evet, bu gösterim doğrusal modeldeki Graybill'in klasik metinleri de dahil olmak üzere başka bir yerde görünür.

— kardinal

Aşağıdaki üç formül iyi bilinmektedir, doğrusal regresyon ile ilgili birçok kitapta bulunurlar. Bunları türetmek zor değil.

$\beta_1= \frac {r_{YX_1}-r_{YX_2}r_{X_1X_2}} {\sqrt{1-r_{X_1X_2}^2}}$

$\beta_2= \frac {r_{YX_2}-r_{YX_1}r_{X_1X_2}} {\sqrt{1-r_{X_1X_2}^2}}$

$R^2= \frac {r_{YX_1}^2+r_{YX_2}^2-2 r_{YX_1}r_{YX_2}r_{X_1X_2}} {\sqrt{1-r_{X_1X_2}^2}}$

İki beta'yı denkleminize koyarsanız $R^2 = r_{YX_1} \beta_1 + r_{YX_2} \beta_2$ , R-karesi için yukarıdaki formülü alırsınız.

İşte geometrik bir "içgörü". Aşağıda regresyonu gösteren iki resim bulunmaktadır. $Y$ tarafından $X_1$ ve $X_2$ . Bu tür bir gösterim, konu uzayında vektör olarak değişkenler olarak bilinir (lütfen ne ile ilgili olduğunu okuyun ). Resimler, üç değişkenin tümü ortalandıktan sonra çizilir ve böylece (1) her vektörün uzunluğu = st. ilgili değişkenin sapması ve (2) her iki vektör arasındaki açı (kosinüsü) = ilgili değişkenler arasındaki korelasyon.

enter image description here

$\hat{Y}$ regresyon öngörüsüdür ( $Y$ "X düzlemine"); $e$ hata terimidir; $cos \angle{Y \hat{Y}}={|\hat Y|}/|Y|$ çoklu korelasyon katsayısı.

Soldaki resim eğim koordinatlarını gösterir $\hat{Y}$ değişkenlerde $X_1$ ve $X_2$ . Bu koordinatların regresyon katsayıları ile ilişkili olduğunu biliyoruz. Yani, koordinatlar: $b_1|X_1|=b_1\sigma_{X_1}$ and $b_2|X_2|=b_2\sigma_{X_2}$ .

And the right picture shows corresponding perpendicular coordinates. We know that such coordinates relate the zero order correlation coefficients (these are cosines of orthogonal projections). If $r_1$ is the correlation between $Y$ and $X_1$ and $r_1^*$ is the correlation between $\hat Y$ and $X_1$ then the coordinate is $r_1|Y|=r_1\sigma_{Y} = r_1^*|\hat{Y}|=r_1^*\sigma_{\hat{Y}}$ . Likewise for the other coordinate, $r_2|Y|=r_2\sigma_{Y} = r_2^*|\hat{Y}|=r_2^*\sigma_{\hat{Y}}$ .

So far it were general explanations of linear regression vector representation. Now we turn for the task to show how it may lead to $R^2 = r_1 \beta_1 + r_2 \beta_2$ .

First of all, recall that in their question @Corone put forward the condition that the expression is true when all the three variables are standardized, that is, not just centered but also scaled to variance 1. Then (i.e. implying $|X_1|=|X_2|=|Y|=1$ to be the "working parts" of the vectors) we have coordinates equal to: $b_1|X_1|=\beta_1$ ; $b_2|X_2|=\beta_2$ ; $r_1|Y|=r_1$ ; $r_2|Y|=r_2$ ; as well as $R=|\hat Y|/|Y|=|\hat Y|$ . Redraw, under these conditions, just the "plane X" of the pictures above:

enter image description here

On the picture, we have a pair of perpendicular coordinates and a pair of skew coordinates, of the same vector $\hat Y$ of length $R$ . There exist a general rule to obtain perpendicular coordinates from skew ones (or back): $\bf P = S C$ , where $\bf P$ is points X axes matrix of perpendicular ones; $\bf S$ is the same sized matrix of skew ones; and $\bf C$ are the axes X axes symmetric matrix of angles (cosines) between the nonorthogonal axes.

$X_1$ and $X_2$ are the axes in our case, with $r_{12}$ being the cosine between them. So, $r_1 = \beta_1 + \beta_2 r_{12}$ and $r_2 = \beta_1 r_{12} + \beta_2$ .

Substitute these $r$ s expressed via $\beta$ s in the @Corone's statement $R^2 = r_1 \beta_1 + r_2 \beta_2$ , and you'll get that $R^2 = \beta_1^2 + \beta_2^2 + 2\beta_1\beta_2r_{12}$ , - which is true, because it is exactly how a diagonal of a parallelogram (tinted on the picture) is expressed via its adjacent sides (quantity $\beta_1\beta_2r_{12}$ being the scalar product).

This same thing is true for any number of predictors X. Unfortunately, it is impossible to draw the alike pictures with many predictors.

— ttnphns
kaynak

+1 nice to see it constructed this way as well, but this doesn't add as much insight compared to whuber's answer

— Korone

@Corone, I added some "insight" which you might take.

— ttnphns

+1 Really cool (after the update). I thought that invoking "general rule" of converting between coordinates is a bit of an overkill (and for me was only confusing); to see that e.g.

r_{1} = β_{1} + β_{2} r_{12}

$r_1 = \beta_1 + \beta_2 r_{12}$ one only needs to remember the definition of cosine and look at one of the right triangles.

— amoeba

Really cool edit, switched accepted.

— Korone