Bir değişkenin bir PCA bileşeniyle (bir biplot / yükleme grafiğinde) uygun ilişkilendirme ölçüsü nedir?


17

FactoMineRVeri ölçümlerimi gizli değişkenlere indirmek için kullanıyorum .

![variable map](http://f.cl.ly/items/071s190V1G3s1u0T0Y3M/pca.png)

Beni yorumlamak için yukarıdaki değişken haritası açıktır, ancak değişken Haritaya bakmak değişkenler ve bileşen 1 arasında derneklere geldiğinde karıştı, ddpve covçok yakın haritasındaki bileşenlerle ve ddpAbsbiraz daha fazla uzakta. Ancak, korelasyonların gösterdiği şey bu değildir:

$Dim.1
$Dim.1$quanti
        correlation      p.value
jittAbs   0.9388158 1.166116e-11
rpvi      0.9388158 1.166116e-11
sd        0.9359214 1.912641e-11
ddpAbs    0.9327135 3.224252e-11
rapAbs    0.9327135 3.224252e-11
ppq5      0.9319101 3.660014e-11
ppq5Abs   0.9247266 1.066303e-10
cov       0.9150209 3.865897e-10
npvi      0.8853941 9.005243e-09
ddp       0.8554260 1.002460e-07
rap       0.8554260 1.002460e-07
jitt      0.8181207 1.042053e-06
cov5_x    0.6596751 4.533596e-04
ps13_20  -0.4593369 2.394361e-02
ps5_12   -0.5237125 8.625918e-03

Sonra (örneğin) için sin2yükseklik olan miktar vardır rpvi, ancak bu ölçü ilk bileşene en yakın değişken değildir.

Variables
           Dim.1    ctr   cos2    Dim.2    ctr   cos2  
rpvi    |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
npvi    |  0.885  7.227  0.784 |  0.075  0.267  0.006 |
cov     |  0.915  7.719  0.837 | -0.006  0.001  0.000 |
jittAbs |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
jitt    |  0.818  6.171  0.669 |  0.090  0.380  0.008 |
rapAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
rap     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
ppq5Abs |  0.925  7.884  0.855 |  0.091  0.392  0.008 |
ppq5    |  0.932  8.007  0.868 | -0.035  0.057  0.001 |
ddpAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
ddp     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
pa      |  0.265  0.646  0.070 | -0.857 34.614  0.735 |
ps5_12  | -0.524  2.529  0.274 |  0.664 20.759  0.441 |
ps13_20 | -0.459  1.945  0.211 |  0.885 36.867  0.783 |
cov5_x  |  0.660  4.012  0.435 |  0.245  2.831  0.060 |
sd      |  0.936  8.076  0.876 |  0.056  0.150  0.003 |

Peki, bir değişken ile ilk bileşen arasındaki ilişki söz konusu olduğunda nelere bakmalıyım?


1
Haritanızdaki (yükleme grafiği gibi görünüyor) dağınıklığı olan Althougt noktaları, arsanın "korelasyonlar" çıktısına güzel bir şekilde karşılık geldiğini söyleyebilirim. Bu "korelasyonlar" Dim1'in koordinatlarıdır. Bunlar, yüklemeler, bir faktör ve değişkenler arasındaki korelasyonlardır (analizinizi standart verilere dayandırdığınızda = değişkenler arasındaki korelasyonlara göre).
ttnphns

Aşağıdaki cevaplara ek olarak lütfen daha fazla bağlantı içeren bu soruyu kontrol edin .
17:54

Yanıtlar:


25

PCA yükleme faktörünün açıklanması veya Faktör analizi.

Yükleme grafiği değişkenleri ana bileşenler (veya faktörler) alanındaki noktalar olarak gösterir. Değişkenlerin koordinatları genellikle yüklemelerdir. (Yükleme grafiğini, aynı bileşenler alanındaki veri vakalarının karşılık gelen dağılım grafiğiyle düzgün bir şekilde birleştirirseniz, bu biplot olur.)

Bize 3 bir şekilde korelasyon değişkenler, ver , W , U . Biz ortalamak onları ve gerçekleştirmek PCA üç dışında ilk 2 temel bileşenleri ayıklanması: F 1 veVWUF1 . Aşağıdakiyükleme grafiğiniyapmak içinyüklemelerikoordinatlar olarak kullanıyoruz. Yükler, standartlaştırılmamış özvektörlerin elemanları, yani karşılık gelen bileşen varyansları veya özdeğerleriyle donatılmış özvektörlerdir.F2

enter image description here

Yükleme grafiği resimdeki düzlemdir. Sadece değişkenini ele alalım . Alışkanlıkla bir yükleme arsa üzerinde çizilen ok işaretli budur h ' burada; koordinatları , bir 1 , bir 2 yüklemeleri olan V ile F 1 ve F 2Vha1a2VF1F2 , sırasıyla (yani terminolojik "bir değişken parça yükler", bunun tam tersi demek daha doğru bilgi bakınız).

Ok vektörü, bileşen düzlemde, çıkıntıdır h değişken gerçek konumunu olan V tarafından kapsanan alan değişkenler olarak V , W , U . Vektörün kare uzunluğu, s 2 , bir varyans bir bölgesinin V . SürehhVVWUh2aV olanbu varyans kısmı açıklanmıştır, iki bileşen ile.h2

Yükleme, korelasyon, öngörülen korelasyon . Değişkenler, bileşenlerin önceden ekstraksiyon merkezli edildi çünkü olan Pearson korelasyon arasında V ve bileşen F 1 . İle bu karıştırılmamalıdır çünkü a bir miktar yükleme arsa üzerinde: komponent arasındaki Pearson korelasyon olduğu F 1 ve burada vektörel değişken h ' . Değişken olarak,cosϕVF1cosαF1h , V'nin lineer regresyondaki (standartlaştırılmış) bileşenler tarafından tahminidir (lineer regresyon geometrisininçizimiyle karşılaştırın)hV) Yükler 'nın regresyon katsayıları olduğu durumlarda (bileşenler çıkarıldığı gibi dik tutulduğunda).a

Daha ileri. Biz (trigonometri) olduğunu hatırlarsınız . Vektör V ile birim uzunluk vektörü F 1 : h 1 cos ϕ arasındaki skaler ürün olarak anlaşılabilir . F 1 hiçbir kendi çünkü bu birim varyans vektör ayarlanmış kendi bu varyans ayrı varyans V bu açıklar (miktar ile h ' ie:) F 1a1=hcosϕVF1h1cosϕF1VhF1dışarıdan davet edilen bir varlık değil, V, W, U'dan çıkarılır. Sonra, açıkça, ,Vilestandart, birim ölçeklibarasındakikovaryanstır(sa1=varVvarF1r=h1cosϕVb) bileşenF1. Bu kovaryans, giriş değişkenleri arasındaki kovaryanslarla doğrudan karşılaştırılabilir; örneğin,VveWarasındaki kovaryans, vektör uzunluklarının aralarındaki kosinüs ile çarpımı sonucu olacaktır.s1=varF1=1F1VW

Özetle: yükleme standart bileşen ve gözlenen değişken arasında, kovaryans olarak görülebilir h 1 cos φ bölgesinin veya eşdeğer (arsa tanımlayan tüm bileşenleri tarafından) açıklandığı standart bileşen arasındaki görüntü değişken, h 1 cos α . Bu cos α , F1-F2 bileşeni alt uzayına yansıtılan V-F1 korelasyonu olarak adlandırılabilir .a1h1cosϕh1cosαcosα

Bir değişken ile bir bileşen arasındaki yukarıda belirtilen korelasyon, olarak da standartlaştırılmış veya yeniden ölçeklendirilmiş yükleme olarak adlandırılır . [-1,1] aralığında olduğu için bileşenlerin yorumlanmasında kullanışlıdır.cosϕ=a1/h

Özvektörlerle ilişki . Yeniden olçeklendirilmiş yükleme gerekir değil ile karıştırılmamalıdır özvektör bildiğimiz - - elemanı olan bir değişken ile bir ana bileşen arasındaki açının kosinüs. Yüklemenin, bileşenin tekil değeri (özdeğer değerinin karekökü) ile ölçeklendirilmiş özvektör elemanı olduğunu hatırlayın . Yani grafiğimizin V değişkeni için : a 1 = e 1 s 1 , burada s 1 st'dir. F 1'in sapması ( 1 değil orijinal, yani tekil değer)cosϕVa1=e1s1s11F1Gizli değişken. Sonra özvektör elemanı ,cosϕ'ninkendisi değil. İki tür "kosinüs" etrafındaki karışıklık, ne tür bir alan temsilinde olduğumuzu hatırladığımızda çözülür. Özvektör değeri,bir değişkenin eksen olarak pr'yedönme açısınınkosinüsüdür. bileşen gibi değişken uzayda eksenolarak (buradadağılım grafiği görünümü). ikencose1=a1s1=hs1cosϕcosϕ bizim yükleme arsa üzerindekosinüs benzerliği ölçüsüdürvektör ve bir pr olarak bir değişken arasına. Bileşen olarak ... iyi .. vektör olarak da, isterseniz (arsa üzerinde eksen olarak çizilmesine rağmen), - çünkü şu andacosϕ konu alanındayız İlişkili değişkenlerin vektörlerin hayranları olduğu (dikey eksenler değil) ve vektör açıları, birleşim ölçüsüdür - uzay tabanı dönüşü değildir.

Yükleme, bir değişken ile birim ölçekli bir bileşen arasındaki açısal (yani skaler ürün tipi) ilişkilendirme ölçüsüdür ve yeniden ölçeklendirilmiş yükleme, değişkenin ölçeğinin birime indirildiği standartlaştırılmış yüklemedir, ancak özvektör katsayısı, bileşen "standartların altında", yani ölçeğine getirildi (1 yerine); alternatif olarak, değişkenin ölçeğinin h / s'ye getirildiği ölçeklendirilmiş bir yükleme olarak düşünülebilir.1/sh/s (1 yerine) .

Peki, bir değişken ve bir bileşen arasındaki ilişkiler nelerdir? Ne istediğinizi seçebilirsiniz. Yükleme olabilir (birim ölçekli bileşenle kovaryans) ; yeniden olçeklendirilmiş yükleme cos cp (= değişken bileşenli korelasyon); arasındaki korelasyon resim (tahmin) ve bileşen (= korelasyon öngörülen cos a ). Hatta özvektör katsayısı e = a /a cosϕcosαolursa s'yi de seçebilirsiniz (bunun bir nedeni olabileceğini merak ediyorum). Veya kendi tedbirinizi icat edin.e=a/s

Özvektör değeri karesi , bir değişkenin pr'ye katkısının anlamıdır. bileşen. Yeniden boyutlandırılmış yükleme karesi , pr'nin katkısı anlamına gelir. bileşenini değişkene dönüştürür.

Korelasyonlara dayalı PCA ile ilişki. PCA tarafından analiz edildiğimizde sadece ortalanmış değil aynı zamanda standartlaştırılmış (ortalanmış sonra birim varyans ölçeklendirilmiş) değişkenler varsa, üç değişken vektörü (düzlemdeki çıkıntıları değil) aynı birim uzunluğunda olacaktır. Daha sonra , bir değişkenin bir bileşen arasında bir yüklemenin kovaryans değil korelasyon olduğunu otomatik olarak takip eder . Ama bu ilişki olmayacak "standardize yükleme" eşit ait çünkü PCA standardize değişkenlerin, (tıpkı merkezli değişkenlerin analizine dayalı) Yukarıdaki resimde (korelasyon tabanlı PCA) sağladığını farklı merkezli değişkenlerin PCA (daha bileşenlerini kovaryans tabanlı PCA). Korelasyon tabanlı PCA ise bir 1cosϕ çünkü h = 1 , ancak temel bileşenlerkovaryans tabanlı PCA'dan aldığımızlaaynıtemel bileşenlerdeğildir(okuma,okuma).a1=cosϕh=1

In faktör analizi , yükleme arsa temelde PCA ile aynı konsept ve yorumunu vardır. Sadece (ama önemli ) farkı maddedir . Faktör analizinde, h - o zaman değişkenin "komünalitesi" olarak adlandırılır - varyansının değişkenler arasındaki korelasyonlardan özel olarak sorumlu ortak faktörler tarafından açıklanan kısmıdır . PCA iken kısmı izah h 'hh hbrüt "karışım" dır - değişkenler arasında kısmen korelasyon ve kısmen ilgisizliği temsil eder. Faktör analizi ile, resmimizdeki yüklerin düzlemi farklı bir şekilde yönlendirilecektir (aslında, 3d değişkenlerimizin alanından dışarıya çekemeyeceğimiz 4. boyuta kadar uzanacaktır; yükleme düzlemi, 3d uzay tarafından yayılmış ve diğer iki değişken), ve çıkıntı h ' bir uzunlukta ve başka bir açı olacak a . (PCA ve faktör analizi arasındaki teorik fark burada geometrik olarak burada konu alanı gösterimi ve burada değişken alan gösterimi ile açıklanmaktadır.)Vhα


@Antoni Parellada'nın isteğine verilen yanıt. Varyansveyasaçılma(sapma SS)cinsinden konuşmayı tercih edip etmemeniz eşdeğerdir: varyans = dağılım / (n-1), buradanörneklem büyüklüğüdür. Aynınile bir veri kümesi ile uğraştığımız için, sabit formüllerde hiçbir şeyi değiştirmez. EğerX,veri olup kovaryans matrisi (B) dağılım matris eigendecomposition aynı öz (bileşen varyansları) ve özvektörler verir, bunun (A) 'nın daha sonra eigendecomposition (değişkenler V, W, U ortalanmış) X ' Xa,b/(n1)nnXXXilk bölme sonra elde edilen tarafından X faktörü. Bundan sonra, bir yükleme formülde (cevap orta bölümüne bakınız), bir1=Hs1cosφterimiholanst. sapman1a1=hs1cosϕh (a) 'da kök dağılım (diğer bir deyişle normu) içindeV(B)' de. Terims1eşittir1,olduğustandardizeF1bileşenin st. sapmavarVVs11F1 in (A) ancak kök saçılmasıF1in (B). Son olarak,cosϕ=r,hesaplamalarından-1kullanımınaduyarsızolan korelasyondur. Böylece, sadecesözdeğerleri kendileri her iki durumda da formül ile aynı kalırken, varyanslar (A) 'nın ya da scatter (B) kavramsal.varF1F1cosϕ=rn1


Bu cevap harika ve çok fazla bilgiye sahip, ama bence soruya verilen asıl cevap " ne anlama geliyor?" α
shadowtalker

@ssdecontrol, bununla ilgili bir satır ekledim.
ttnphns

Açıkça" ... Ben konu hakkında Mesajınızı okuma edilmiş ve derken, görünüşte en belirgin kısmı şaşırıp . Yanar=cosφvea1=varVvarF1r=h1cosϕr=cosϕ,varF1=1. Ancak,h=V=varV=h , oysah=V=x2 . Neyi kaçırıyorum? varV=x2n1
Antoni Parellada

1
@AntoniParellada, lütfen dipnotu kontrol edin.
ttnphns

1
Zeyilname okudum ve çok aydınlatıcı. Teşekkür ederim! Belirli cümleler seçmek dışarı olmadan, birim normu ölçekleme için birim Varyans gelen geçişlerin bazı açıklıyor , daha önce (bana) bazı zorluklar sunulan cevap boyunca. F1
Antoni Parellada
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.