Bence, Temel bileşenler analizi (PCA) veya Doğrusal regresyona karşı Kanonik korelasyon analizinin (CCA) görsel bir açıklamasını sunmak gerçekten zor . Son ikisi genellikle 2B veya 3B veri dağılım alanları aracılığıyla açıklanır ve karşılaştırılır, ancak bunun CCA ile mümkün olup olmadığından şüpheliyim. Aşağıda, üç prosedürdeki özü ve farklılıkları açıklayabilecek resimler çizdim, ancak "konu alanındaki" vektör temsilleri olan bu resimlerde bile, CCA'yı yeterince yakalamakta sorunlar var. (Kanonik korelasyon analizinin cebir / algoritması için buraya bakınız .)
Bireylerin eksenlerin değişken olduğu bir uzayda nokta olarak çizilmesi, normal bir dağılım grafiği olan değişken bir uzayı ifade eder . Aksi yolu çizerseniz - değişkenler nokta ve bireyler eksen gibi - bu bir konu alanı olacaktır . Çok sayıda ekseni çizmek gerçekte gereksizdir, çünkü alan, kolinerik olmayan değişkenlerin sayısına eşit, yedekli olmayan boyutların sayısına sahiptir. Değişken noktalar, orijin ile bağlantılıdır ve konu alanını kapsayan vektörler, oklar oluşturur; öyleyse işte buradayız ( ayrıca bakınız ). Bir konu alanında, eğer değişkenler merkezlenmişse, vektörler arasındaki açının kosinüsü, onlar arasındaki Pearson korelasyonudur ve vektörlerin karelerinin uzunlukları, varyanslarıdır.. Aşağıdaki resimlerde görüntülenen değişkenler ortalanmıştır (sabit bir noktaya gerek yoktur).
Ana bileşenleri
ve değişkenleri arasında pozitif bir korelasyon var: aralarında keskin bir açı var. Ana bileşenler ve , iki değişken tarafından yayılan "düzlem X" alanı . Bileşenler de değişkenlerdir, sadece karşılıklı ortogonaldir (ilişkisiz). yönü , bu bileşenin iki kare toplamını maksimize etmek gibidir; ve , bu durumda kalan bileşen, ortogonal gider dört vektörlerin kare uzunluklarının varyanslar (bir bileşenin varyans da kare yükleri yukarıda bahsedilen toplamı) olan düzlemi X'te. Bileşen yüklemeleri, bileşenlerin üzerindeki değişkenlerin koordinatlarıdır -X1X2P1P2P1P2P1aSoldaki resimde gösterildi. Her değişken iki bileşenin hatasız doğrusal bir kombinasyonudur, karşılık gelen yükler regresyon katsayılarıdır. Ve bunun tersi durumda , her bir bileşen iki değişkenin hatasız doğrusal birleşimidir; Bu kombinasyondaki regresyon katsayıları, bileşenlerin çarpık koordinatlarıyla - sağdaki resimde gösterilen - değişkenlerine verilir . Gerçek regresyon katsayısı büyüklüğü , öngörülen bileşenin uzunluklarının (standart sapmalar) ve yordayıcı değişkenine , örneğin, . [Dipnot: Bileşenlerin yukarıda belirtilen iki doğrusal kombinasyondaki değerleri standartlaştırılmış değerlerdir, st. dev.bbb12/(|P1|∗|X2|)= 1. Bunun nedeni, değişkenlikleriyle ilgili bilgilerin yüklemeler tarafından yakalanmasıdır . , Standart dışı bileşen değerleri açısından konuşmak için 'pic ler üzerinde olmalıdır özvektörler değerleri aynı olan muhakeme kalanı'.]a
Çoklu regresyon
PCA'da her şey X düzleminde uzanırken, çoklu regresyonda, genellikle X düzlemine ait olmayan, , yordayıcısının alanı olan bağımlı bir değişkeni ortaya çıkar . Fakat , X düzlemine dik olarak yansıtılıyor ve çıkıntısı , gölgesi, iki tahmini veya lineer birleşimidir . Resimde, kare uzunluğu hata varyansıdır. ve arasındaki kosinüs , çoklu korelasyon katsayısıdır. PCA'da olduğu gibi, regresyon katsayıları, tahminin çarpık koordinatlarıyla verilir (YX1X2YY′YXeYY′Y′) değişkenlerin üzerine - 's. Gerçek regresyon katsayısı büyüklüğü , yordayıcı değişkeninin uzunluğuna (standart sapma) , örneğin,.bbb2/|X2|
Kanonik Korelasyon
PCA'da, bir değişkenler dizisi kendilerini tahmin eder: değişkenleri geri modelleyen, tahmin edicilerin alanını bırakmadığınız ve (tüm bileşenleri kullanırsanız) tahminin hatasız olduğu temel bileşenleri modeller. Çoklu regresyonda, bir değişkenler kümesi bir yabancı değişkeni öngörür ve bu nedenle bazı tahmin hataları vardır. CCA'da durum, regresyondaki durumla benzerdir, ancak (1) yabancı değişkenler çoktur ve kendi kümelerini oluşturur; (2) iki küme birbirini eşzamanlı olarak öngörür (dolayısıyla regresyon yerine korelasyon); (3) Birbirlerinde tahmin ettikleri şey, bir regresyonun gözlemlenmiş tahmininden ziyade gizli bir değişken olan bir özüttür ( ayrıca bakınız ).
Kanonik olarak ilişkilendirilmesi için ikinci ve değişken setini dahil edelim . Boşluklarımız var - burada, düzlemler - X ve Y. Durumun önemsiz olması için - yukarıdaki gibi, X düzleminin dışında durduğu gerileme ile olduğu gibi - düzlemlerin X ve Y'nin sadece bir noktada kesiştiği, köken. Maalesef kağıda çizim yapmak imkansız çünkü 4 boyutlu sunum gerekli. Her neyse, gri ok iki kökenin bir nokta olduğunu ve iki düzlem tarafından paylaşılan tek nokta olduğunu gösterir. Bu çekilirse, resmin geri kalanı regresyonda olana benzer. veY1Y2XYVxVykanonik değişkenlerin çiftidir. Her kanonik değişken, gibi olduğu gibi ilgili değişkenlerin doğrusal kombinasyonudur . ' nin ortogonal projeksiyonu olarak burada düzlem X üzerine bir projeksiyon düzlemi X ve aynı zamanda bir projeksiyon düzlemi Y, ancak bunlar değil dik çıkıntılar. Bunun yerine, açısı en aza indirmek için (ekstre) bulunan arasında onlaraY′Y′YVxVyVyVx ϕ X Y X 1 X 2 Y 1 Y 2 V x ( 2 ) V x V y ( 2 ) V yϕ. Bu açının kosinüsü kanonik korelasyondur. Projeksiyonların ortogonal olmaları gerekmediğinden, kanonik değişkenlerin uzunlukları (dolayısıyla farklılıkları), uygun algoritma tarafından otomatik olarak belirlenmez ve farklı uygulamalarda farklı olabilecek sözleşmelere / kısıtlamalara tabidir. (Ve dolayısıyla kanonik korelasyon sayısı) kanonik değişkenlerin çiftlerinin sayısı dakika (sayısıdır s sayısı s). Ve işte CCA'nın PCA'yı andırdığı zaman geliyor. PCA'da, tüm çok değişkenli değişkenlik tüketilinceye kadar karşılıklı olarak ortogonal ana bileşenleri (sanki) yinelemeli olarak temizlersiniz. Benzer şekilde, CCA'da, karşılıklı olarak bağıntılı değişkenlerin karşılıklı ortogonal çiftleri tahmin edilebilecek tüm çok değişkenli değişkenliklere kadar çıkarılır.XYDaha küçük alanda (daha az ayar) yüksektir. İle Örneğimizde vs orada, ikinci ve daha zayıf korelasyon kanonik çifti kalır (ortogonal ) ve (ortogonal ).X1 X2Y1 Y2Vx(2)VxVy(2)Vy
CCA ve PCA + regresyonu arasındaki fark için ayrıca bkz . PCA ile bağımlı bir değişken oluşturmak vs. CCA yapmak ve sonra regresyon yapmak .