Çoklu korelasyon katsayısı ve belirleme katsayısının geometrik yorumu


24

Birden korelasyon geometrik anlamı ilgilenen am ve kararlılık katsayısı Regresyondaki veya vektör gösteriminde,R 2 y i = β 1 + β 2 x 2 , i + + β k x k , i + ϵ iRR2yi=β1+β2x2,i++βkxk,i+ϵi

y=Xβ+ϵ

Burada, " tasarım matrisi , satır ve sütununa sahiptir, bunlardan ilki , 1 kesişimine karşılık gelen bir . n k x 1 = 1 n β 1Xnkx1=1nβ1

Geometri daha ilginçtir boyutlu konu alan ziyade içinde boyutlu değişken alanı. Şapka matrisini tanımlayın:knk

H=X(XX)1X

Bu, sütun alanına dikgen bir projeksiyondur ; yani, her biri değişkenini temsil eden vektörleri tarafından yayılan orijinden geçen daire , ilki . Ardından , gözlenen yanıtların vektörünü "gölgesine", takılı değerlerin vektörüne , ve biz izdüşüm yolunun etrafına bakınca kalıntı vektörünü görelim bir üçgenin üçüncü tarafını oluşturur. Bu bize geometrik yorumuna iki yol göstermelidir.Xkxi1nHyy^=Hye=yy^R2:

  1. Çoklu korelasyon katsayısı, kare R arasındaki ilişki olarak tanımlanır, y ve y . Bu, geometrik olarak bir açının kosinüsü olarak görünecektir.y^
  2. Vektörlerin uzunlukları açısından: örneğin .SSresidual=i=1nei2=e2

Açıklayan kısa bir hesap görmek beni çok mutlu eder:

  • (1) ve (2) için daha ince detaylar,
  • (1) ve (2) neden eşdeğerdir?
  • Kısaca, geometrik kavrayış bize temel özelliklerini nasıl görselleştirmemize izin veriyor , mesela gürültü varyansı 0'a gittiğinde neden 1'e gidiyor? Güzel bir resim.)R2

Değişkenleri önce merkezlenmişse, bu kesiti sorudan kaldıran şey daha basit olur. Bununla birlikte, çoklu regresyon sağlayan birçok ders kitabı hesabında, tasarım matrisi ortaya koyduğum gibidir. Elbette, bir merkezlenmiş değişkenlerin kapsadığı boşluğa bir açıklama girerse sorun yoktur, ancak ders kitabı doğrusal cebirine ilişkin içgörü için, bunu merkezsiz ortamda geometrik olarak olanlarla ilişkilendirmek çok yararlı olacaktır. Bir gerçekten anlayışlı cevap açıklayabilir tam geometrik parçalayarak ne kesişme terim düştüğünde - yani ne zaman vektörX1nyayılma kümesinden çıkarıldı. Bu son noktanın yalnızca merkezlenmiş değişkenler göz önüne alınarak ele alınabileceğini sanmıyorum.

Yanıtlar:


47

Eğer modelde sabit bir terim varsa, o zaman , X sütun boşluğunda yer alır ( daha sonra faydalı olacak olan useful Y 1 n'de olduğu gibi). Monte Y'nin gözlenen ortogonal projeksiyonu Y bu sütun alanı tarafından oluşturulan düz yerleştirin. Bu araçlar artıklar vektör e = y - y düz dik olan ve dolayısıyla, 1 n . Nokta ürünü göz önüne alındığında n i = 1 e i = 0 görebiliriz , yani1nXY¯1nY^Ye=yy^1ni=1nei=0 sıfıra toplanmalıdır. Y i = ^ Y i + e i 'den berin i = 1 Y i = n i = 1 ^ Y i olduğu sonucuna vardık,böylece hem takılan hem de gözlenen yanıtların ortalama ˉ Y olduğu görüldü.eYi=Yi^+eii=1nYi=i=1nYi^Y¯

Çoklu regresyonun konu alanındaki vektörler

Diyagramda kesik çizgiler temsil ve Y, - ˉ Y 1 N olan, ortalanmış gözlenen ve monte yanıtlar için vektörler. Açısının kosinüsü İçeride ISTV melerin RWMAIWi'nin bu vektörler ve bu nedenle arada korelasyon olacak Y ve Y tanımına göre çoklu korelasyon katsayısı, R ' . Bu vektörler, artıklar vektörü ile meydana üçgen çünkü dik açılı olan Y - ˉ Y 1 , n yalan düz değil YY¯1nY^Y¯1nθYY^RY^Y¯1n ona diktir. Dolayısıyla:e

R=cos(θ)=adjhyp=Y^Y¯1nYY¯1n

Pisagor'u üçgene de uygulayabiliriz:

YY¯1n2=YY^2+Y^Y¯1n2

Hangisi daha aşina olabilir:

i=1n(YiY¯)2=i=1n(YiY^i)2+i=1n(Y^iY¯)2

Bu, karelerin toplamının ayrışması, .SStotal=SSresidual+SSregression

Belirleme katsayısı için standart tanım:

R2=1SSresidualSStotal=1i=1n(yiy^i)2i=1n(yiy¯)2=1YY^2YY¯1n2

Karelerin toplamları bölündüğünde, bunun "açıklanan varyans oranı" formülasyonuna eşdeğer olduğunu göstermek için bazı basit cebirler gerekir.

R2=SSregressionSStotal=i=1n(y^iy¯)2i=1n(yiy¯)2=Y^Y¯1n2YY¯1n2

R2=1sin2(θ)cos2(θ)R2R

1nY. In that case we couldn't have drawn the triangle; the sums of squares would not have decomposed in a Pythagorean manner; R2 would not have had the frequently-quoted form SSreg/SStotal nor be the square of R. In this situation, some software (including R) uses a different formula for R2 altogether.


1
+1 Very nice write-up and figure. I am surprised that it only has my single lonely upvote.
amoeba says Reinstate Monica

2
+1. "X sütun alanı", Y, Ypred, vektörler gibi Ypred gibi cevabınızın rakamının çok değişkenli istatistiklerde "(azaltılmış) konu alanı temsili" "olarak bilindiğini unutmayın ( bkz. Daha önce kullandığım bağlantılarla ).
ttnphns
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.