Konu (çift) uzayda PCA'nın geometrik olarak anlaşılması


19

Temel bileşen analizinin (PCA) konu (ikili) alanda nasıl çalıştığını sezgisel bir şekilde anlamaya çalışıyorum .

İki değişken, 2D veri kümesi düşünün ve ve veri noktası (veri matrisi isimli ve ortalanmış olduğu varsayılmaktadır). PCA'nın olağan sunumu, noktasını dikkate almamız , kovaryans matrisini yazmamız ve özvektörlerini ve özdeğerlerini bulmamızdır; ilk PC maksimum varyans yönüne vb. karşılık gelir. İşte kovaryans matrisi . Kırmızı çizgiler, ilgili özdeğerlerin kare kökleri ile ölçeklendirilmiş özvektörleri gösterir.x1x2nXn×2nR22×2C=(4222)

Örnek uzayında PCA

Şimdi konu uzayında neler olduğunu düşünün (bu terimi @ttnphns'dan öğrendim), aynı zamanda ikili alan (makine öğreniminde kullanılan terim ) olarak da bilinir . Bu, iki değişkenimizin ( iki sütunu) örneklerinin iki vektör ve oluşturduğu boyutlu bir boşluktur . Her değişken vektörün karesi alınmış uzunluğu varyansına eşittir, iki vektör arasındaki açının kosinüsü aralarındaki korelasyona eşittir. Bu temsil, bu arada, çoklu regresyon tedavilerinde çok standarttır. Örneğimde, konu alanı şöyle görünüyor (sadece iki değişken vektörün kapsadığı 2B düzlemi gösteriyorum):nXx1x2

Konu alanında PCA 1

İki değişkenin doğrusal kombinasyonları olan temel bileşenler, aynı düzlemde ve vektörlerini oluşturacaktır . Benim sorum: böyle bir arsa üzerinde orijinal değişken vektörleri kullanarak temel bileşen değişken vektörlerinin nasıl oluşturulacağının geometrik anlayışı / sezgisi nedir? Verilen ve ne geometrik prosedür doğuracak ?p1p2x1x2p1


Aşağıda mevcut kısmi anlayışım var.

Her şeyden önce, temel bileşenleri / eksenleri standart yöntemle hesaplayabilir ve aynı şekilde çizebilirim:

Konu alanında PCA 2

Ayrıca, , (mavi vektörler) ile üzerindeki yansımaları arasındaki kare mesafelerin toplamının minimum şekilde ; bu mesafeler yeniden yapılandırma hatalarıdır ve siyah kesik çizgilerle gösterilmiştir. , her iki projeksiyonun kare uzunluklarının toplamını en üst düzeye çıkarır. Bu tamamen belirtir ve elbette birincil alandaki benzer açıklamaya tamamen benzerdir (Temel bileşen analizi, özvektörler ve özdeğerler anlamlandırma konusundaki animasyona bakın ). Ayrıca @ ttnphns'es yanıtının ilk bölümüne de bakın .p1xip1p1p1

Ancak, bu yeterince geometrik değil! Bana böyle nasıl bulacağımı ve uzunluğunu belirtmiyor.p1

Benim tahminim olmasıdır , , ve bir elips tüm yalan ortalanan ile ve ana eksenleri olmak. Örneğimde şöyle görünüyor:x1x2p1p20p1p2

resim açıklamasını buraya girin

S1: Bunu nasıl kanıtlayabilirim? Doğrudan cebirsel gösteri çok sıkıcı görünmektedir; nasıl bakın bu durumda olması gerektiğini?

Ancak merkezli ve ve üzerinden geçen birçok farklı elips vardır :0x1x2

resim açıklamasını buraya girin

S2: "Doğru" elipsi ne belirler? İlk tahminim, mümkün olan en uzun ana eksene sahip elips olmasıydı; ama yanlış gibi görünüyor (herhangi bir uzunlukta ana ekseni olan elipsler var).

Q1 ve Q2'ye cevaplar varsa, ikiden fazla değişken durumunda genelleme yapıp yapmadıklarını da bilmek istiyorum.


Başlangıç ​​noktasında ortalanmış (x1 ve x2'nin kesiştiği) ve x1 & x2'nin uzak uçlarıyla temas eden birçok elips olduğu doğru mu? Sadece bir tane olacağını düşünürdüm. Kesinlikle bu 3 kriterden birini (orta ve 2 uç) gevşetirseniz çok olabilir.
gung - Monica'yı eski

İki vektörden geçen başlangıç ​​noktasında ortalanmış çok sayıda elips vardır. Ancak, doğrusal olmayan vektörler ve için ikili temelde birim daire olan sadece bir tane vardır . Bu lokusunu olan x ( a , b ) + y ( c , d ) burada | ( a c b d ) - 1 ( x y ) | 2 = 1. Temel eksenlerinden çok şey öğrenilebilir. ( c , d )(a,b)(c,d)x(a,b)+y(c,d)
|(acbd)1(xy)|2=1.
whuber

3
variable space (I borrowed this term from ttnphns)- @amoeba, yanılmış olmalısın. (Başlangıçta) n boyutlu uzayda vektörler olarak değişkenlere özne alanı denir (n özne olarak n özne olarak "p değişkenleri" yayılırken "boşluk" olarak tanımlanır). Değişken alan , tam tersi, yani olağan dağılım grafiğidir. Çok değişkenli istatistiklerde terminoloji bu şekilde kurulur. (Makine öğreniminde farklıysa - bilmiyorum - o zaman öğrenciler için çok daha kötü.)
ttnphns

Her ikisinin de vektör uzayları olduğuna dikkat edin: vektörler (= noktalar) açıklıklardır, eksenler yönleri tanımlar ve ölçüm çentiklerini taşır. Diyalektiklere de dikkat edin: her iki "boşluk" aslında aynı boşluktur (sadece mevcut amaç için farklı formüle edilmiştir). Örneğin, bu cevabın son resminde görülür . İki formülasyonu kapladığınızda biplot veya çift boşluk elde edersiniz.
ttnphns

My guess is that x1, x2, p1, p2 all lie on one ellipseBurada elipsin sezgisel yardımı ne olabilir? Şüpheliyim.
ttnphns

Yanıtlar:


5

Soruda gösterilen tüm özetleri sadece ikinci anlarına bağlıdır; veya eşdeğer olarak X X matrisinde . Biz düşünüyoruz Çünkü X bir şekilde nokta bulutunun --each noktasının bir sıra X bu noktalara basit işlemler özelliklerini korumak neyi isteyebilir --we X ' X .XXXXXXX

Bir sol-çok-katlı olan bir göre n x n matris U bir üretecektir, n x 2 matris U X . Bunun çalışması için,Xn×nUn×2UX

XX=(UX)UX=X(UU)X.

Eşitlik zaman garanti olan n x n zaman, bu: birim matris U olan ortogonal .UUn×nU

Bilindiği gibi (ve kolay göstermek için) dik matrisler Öklid yansımalar ve rotasyonlar ürünü olduğu (bir formu yansıma grubu içinde ). Dönüşleri akıllıca seçerek X'i önemli ölçüde basitleştirebiliriz . Bir fikir, bulutta aynı anda yalnızca iki noktayı etkileyen rotasyonlara odaklanmaktır. Bunlar özellikle basittir, çünkü onları görselleştirebiliriz.RnX

Spesifik olarak, izin ve ( x j , Y j ) arasındaki satırları oluşturan, bulut içinde iki farklı sıfır olmayan puan olması i ve j arasında X . Kolon alan bir dönme R , n , sadece bu iki nokta dönüştürür bunları etkileyen(xi,yi)(xj,yj)ijXRn

{(xi,yi)=(cos(θ)xi+sin(θ)xj,cos(θ)yi+sin(θ)yj)(xj,yj)=(sin(θ)xi+cos(θ)xj,sin(θ)yi+cos(θ)yj).

Bunun miktarlar vektörlerinin çizim için ve ( y i , y j ) düzleminde ve açı ile çevirerek İçeride ISTV melerin RWMAIWi'nin . (Koordinatlar burada karışmak Bildirimi nasıl! X 'in birbirleri ile gitmek y ' nin. Böylece, bu dönme etkisi birlikte gidip R n genellikle vektörlerin bir rotasyon benzemeyecektir ( x i , y i ) ve ( x j , y j )(xi,xj)(yi,yj)θxyRn(xi,yi)(xj,yj) çizilmiş R2 ).

Doğru açıyı seçerek, bu yeni bileşenlerden herhangi birini sıfırlayabiliriz. Beton olmak için, en seçmesine izin böyleceθ

{cos(θ)=±xixi2+xj2sin(θ)=±xjxi2+xj2.

Bu yapar . Y j0 yapmak için işareti seçin . X , γ ( i , j ) ile temsil edilen buluttaki i ve j noktalarını değiştiren bu işlemi diyelim .xj=0yj0ijXγ(i,j)

Yinelemeli uygulanması için X ilk sütun neden olur X sadece ilk satırda sıfırdan farklı olması. Geometrik olarak, buluttaki bir nokta hariç tümü y eksenine taşınmış olacağız . Şimdi potansiyel koordinatları kapsayan tek bir devri, geçerli olabilir 2 , 3 , ... , n içinde R n , o sıkmak nγ(1,2),γ(1,3),,γ(1,n)XXy2,3,,nRn Tek bir noktaya 1 puan. Eşdeğer olarak, X bir blok forma indirgenmiştirn1X

X=(x1y10z),

ile ve z , her iki sütun vektörlerinin n - 1 koordinatları, bu şekilde olmasıyla0zn1

XX=((x1)2x1y1x1y1(y1)2+||z||2).

Bu son dönüşü daha da azaltır onun için üst üçgen biçimindeX

X=(x1y10||z||0000).

Aslında, X'i artık ayakta kalan son iki sıfır noktası tarafından oluşturulan çok daha basit 2 × 2 matris ( x 1 y 1 0 | | z | | ) açısından anlayabiliriz .X2×2(x1y10||z||)

Göstermek için, iki değişkenli Normal dağılımdan dört iid noktası çizdim ve değerlerini

X=(0.090.120.310.630.740.231.80.39)

Bu başlangıç ​​noktası bulutu, düz siyah noktalar kullanılarak bir sonraki şeklin solunda, renkli oklar başlangıç ​​noktasından her bir noktaya işaret eder ( vektör olarak görselleştirmemize yardımcı olmak için ).

Figure

γ(1,2),γ(1,3),γ(1,4)yX||z||(x1,y1)

X

(1)θ  (cos(θ)x1,cos(θ)y1+sin(θ)||z||)

ikinci vektör ise aynı yolu izler.

(2)θ  (sin(θ)x1,sin(θ)y1+cos(θ)||z||).

Bu eğrinin nokta kümesinin ( görüntüsü olduğu için sıkıcı cebirden kaçınabiliriz.{(cos(θ),sin(θ)):0θ<2π}

(1,0)  (x1,0);(0,1)  (y1,||z||),

θ(1) (2)θ

Figure 2

Bunlar dik olduğundan ve elipsin eksenleri boyunca yönlendirildiklerinden , ana eksenleri doğru bir şekilde tasvir ederler : PCA çözümü. Soru 1'e cevap veriyor.


R2p=2R2

γ(i,j)QXRDVX=UDVU

p2


Cevabınız kendi başına örnek teşkil edebilse de, bu benim için soruyla nasıl ilişkili olduğu belirsizdir. Veri bulutu X hakkında konuşuyorsunuz (ve döndürdüğünüz vektörler veri noktaları, X satırlarıdır). Ancak soru, azalan konu alanı ile ilgiliydi . Başka bir deyişle, herhangi bir X veriye sahip değiliz, sadece 2x2 kovaryans veya X'X saçılma matrisine sahibiz.
ttnphns

(devam) Uzunluğu = sqrt (diyagonal elemanlar) ve açı = korelasyonları olan 2 vektör olarak özetlenen 2 değişkeni temsil ediyoruz. Daha sonra OP , temel bileşenler için nasıl tamamen geometrik olarak çözebileceğimizi sorar . Başka bir deyişle OP , 2x2 simetrik kovaryans matrisinin geometrik özdeğerlenmesini (özdeğerler ve özvektörler veya daha iyi yüklemeler) açıklamak istemektedir .
ttnphns

(devam) Lütfen oradaki ikinci resme bakın . Mevcut sorunun OP'sinin aradığı şey, P1 ve P2 vektörlerini bu pic üzerine çizmek için verilen sadece X ve Y vektörlerine sahip geometrik (trigonometrik vb.) Araçlar veya püf noktaları bulmaktır.
ttnphns

1
@ttnphns. It doesn't matter what the starting point is: the first half of this answer shows that you can reduce any point cloud X to a pair of points which contain all the information about XX. The second half demonstrates that pair of points is not unique, but nevertheless each lies on the same ellipse. It gives an explicit construction of that ellipse beginning with any two-point representation of XX (such as the pair of blue vectors shown in the question). Its major and minor axes yield the PCA solution (the red vectors).
whuber

1
Teşekkürler, düşüncelerinizi anlamaya başlıyorum. (Sadece bir okuyucu için yapılandırmak için, onun iki "yarısı" hakkında cevabınıza doğru altyazı / özet
eklemeyi diliyorum
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.