PCA ve varyans oranı açıklandı


90

Genel olarak, PCA gibi bir analizdeki varyansın oranının ilk ana bileşen tarafından açıklandığını söylemek ne anlama gelir ? Birisi bunu sezgisel olarak açıklayabilir ancak aynı zamanda “açıklamanın” temel bileşen analizi (PCA) açısından ne anlama geldiğinin kesin bir matematiksel tanımını verebilir mi?x

Basit doğrusal regresyon için, en uygun çizginin r karesi her zaman açıklanan varyansın oranı olarak tanımlanır, ancak bu konuda ne yapacağımdan da emin değilim. Buradaki sapma oranı sadece puanların en iyi çizgiden sapması kadar mı?


Yanıtlar:


103

PCA durumunda, "varyans", toplam varyans veya çok değişkenli değişkenlik veya genel değişkenlik veya toplam değişkenlik anlamına gelir . Aşağıda bazı 3 değişkenin kovaryans matrisi verilmiştir. Varyansları köşegen üzerindedir ve 3 değerin toplamı (3.448) genel değişkenliktir.

   1.343730519   -.160152268    .186470243 
   -.160152268    .619205620   -.126684273 
    .186470243   -.126684273   1.485549631

Şimdi PCA, orjinal değişkenleri ortogonal olan (yani sıfır kovaryansa sahip olan) ve değişken düzende (özdeğerler denilen) varyansa sahip ana bileşenler adı verilen yeni değişkenlerle değiştirir. Dolayısıyla, yukarıdaki verilerden elde edilen ana bileşenler arasındaki kovaryans matrisi şu şekildedir:

   1.651354285    .000000000    .000000000 
    .000000000   1.220288343    .000000000 
    .000000000    .000000000    .576843142

Köşegen toplamın hala 3.448 olduğunu ve bunun 3 bileşenin tümünün çok değişkenli değişkenliği oluşturduğunu söyleyin. Birinci ana bileşen, 1.651 / 3.448 = toplam değişkenliğin% 47.9'unu; ikincisi 1.220 / 3.448 =% 35.4'ü açıklar; 3. kişi .577 / 3.448 =% 16.7’yi açıklamaktadır.

Öyleyse, " PCA varyansı maksimuma çıkarır " veya " PCA maksimum varyansı açıklar " derken ne demek istiyorlar ? Tabii ki, bu üç değer arasında en büyük varyansı bulması değil 1.343730519 .619205620 1.485549631, hayır. PCA, veri alanında, toplam varyansın dışındaki en büyük varyansa sahip boyutu (yönü) bulur . Bu en büyük varyans olurdu . Daha sonra, ikinci en büyük varyansın boyutuna, ilkine dik, kalan toplam varyansın dışına çıkar . Bu 2. boyut varyans olurdu . Ve bunun gibi. Kalan son boyut varyanstır. Ayrıca burada "Pt3" ve buradaki büyük cevaba bakınız.1.343730519+.619205620+1.485549631 = 3.4481.6513542853.448-1.6513542851.220288343.576843142 Nasıl yapıldığını daha ayrıntılı olarak açıklamak.

Matematiksel olarak PCA, öz ayrıştırma veya svd ayrıştırma adı verilen doğrusal cebir işlevleri aracılığıyla gerçekleştirilir. Bu işlevler size tüm özdeğerleri 1.651354285 1.220288343 .576843142(ve karşılık gelen özvektörleri) bir kerede döndürür ( bkz , bkz. ).


1
Ne demek istiyorsun: "Köşegen toplamın hala 3,448 olduğunu unutmayın; bu, tüm 3 bileşenin tüm çok değişkenli değişkenliği oluşturduğunu söyler" ve yönteminiz ile PoV (varyasyon oranı) arasındaki fark nedir?
kamaci

2
Ben herhangi bir "yöntem" önermiyorum. Az önce tüm bilgisayarların, orijinal değişkenlerle aynı toplam değişkenlik miktarını oluşturduğunu açıkladım.
ttnphns


Üzgünüm :-( Şu anda yapamam. Ayarlamak için çok fazla yorum var.
ttnphns

1
Sadece soruyu okursanız bu yeterli. Yorumlarda hiçbir şey yok.
kamacı

11

@ Ttnphns iyi bir cevap verdi, belki birkaç puan ekleyebilirim. Öncelikle, CV hakkında, gerçekten güçlü bir cevapla alakalı bir soru olduğunu belirtmek istiyorum - kesinlikle kontrol etmek istersiniz. Daha sonra, bu cevapta gösterilen parsellere değineceğim.

Her üç grafik de aynı verileri görüntüler. Verilerde hem dikey hem de yatay olarak değişkenlik olduğuna dikkat edin, ancak değişkenliğin çoğunu aslında köşegen olarak düşünebiliriz . Üçüncü arsada, bu uzun siyah diyagonal çizgi ilk özvektördür (veya ilk prensip bileşenidir) ve bu prensip bileşeninin uzunluğu (verinin o çizgi boyunca yayılması - aslında çizginin kendisinin uzunluğu değil) sadece arsa üzerinde çizilir) ilk özdeğerdir- birinci ilke bileşeninin muhasebeleştirdiği varyans miktarı. Bu uzunluğu, ikinci prensip bileşeninin uzunluğuyla (verilerin verinin o köşegen çizgiden ortogonal olarak yayılmasının genişliğidir) toplamı ve sonra özdeğerlerin her ikisini de toplamına bölerseniz, yüzde değerini alırsınız. Varyansın ilgili ilke bileşenine göre muhasebeleştirilmesi.

Öte yandan, regresyonda hesaplanan varyansın yüzdesini anlamak için üstteki parsaya bakabilirsiniz. Bu durumda, kırmızı çizgi regresyon çizgisi veya modelden tahmin edilen değerlerin kümesidir. Açıklanan varyans, regresyon hattının dikey yayılmasının (yani, hattaki en düşük noktadan hattaki en yüksek noktaya) verinin dikey yayılmaya oranı (yani en düşük veri noktasından) olarak anlaşılabilir. en yüksek veri noktasına). Tabii ki, bu sadece gevşek bir fikir, çünkü kelimenin tam anlamıyla bunlar aralıklardır, varyanslar değil, ama bu, noktayı anlamanıza yardımcı olacaktır.

Soruyu okuduğunuzdan emin olun. Her ne kadar en iyi cevaba atıfta bulunsam da, verilen cevapların birçoğu mükemmel. Hepsini okumak için zaman ayırmaya değer.


3

Orijinal soruya çok basit, doğrudan ve kesin bir matematiksel cevap var.

Y1Y2...YpR,ben2

bir1bir2...birpPC1=bir1Y1+bir2Y2++birpYpΣben=1pR,ben2(Yben|PC1)

Bu anlamda, ilk PC'yi "açıklanan açıklamayı" maksimize edici olarak veya daha kesin olarak "açıklanan açıklamayı" maksimize edici olarak yorumlayabilirsiniz.

bben=cxbirbenc0

Orijinal literatür ve uzantılara referanslar için, bkz.

Westfall, PH, Arias, AL ve Fulton, LV (2017). Korelasyonları Kullanarak Temel Bileşenleri Öğretmek, Çok Değişkenli Davranış Araştırması, 52, 648-660.


0

Y=bir+BYbirBYbirBYbirBvbirr(Y)=vbirr(bir)+vbirr(B)+2cÖv(bir,B)birb0+b1XBeY=b0+b1X+eYb0+b1X

Y


Formülünüzü Y varyansı açısından kontrol etmelisiniz: doğru değil. Daha önemlisi, yine de, regresyon açıklama girişimi, PCA'yı ve insanların bu konuda ne düşündüklerini ve nasıl kullandıklarını doğru şekilde nitelendirmiyor.
whuber

1
Ty, formülde sabit hata. Cevabım, regresyon çizgisi tarafından açıklanan varyansın oranıyla ilgili sorunun ikinci kısmı içindir.
Genç,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.