PCA yükleme faktörünün açıklanması veya Faktör analizi.
Yükleme grafiği değişkenleri ana bileşenler (veya faktörler) alanındaki noktalar olarak gösterir. Değişkenlerin koordinatları genellikle yüklemelerdir. (Yükleme grafiğini, aynı bileşenler alanındaki veri vakalarının karşılık gelen dağılım grafiğiyle düzgün bir şekilde birleştirirseniz, bu biplot olur.)
Bize 3 bir şekilde korelasyon değişkenler, ver , W , U . Biz ortalamak onları ve gerçekleştirmek PCA üç dışında ilk 2 temel bileşenleri ayıklanması: F 1 veVWUF1 . Aşağıdakiyükleme grafiğiniyapmak içinyüklemelerikoordinatlar olarak kullanıyoruz. Yükler, standartlaştırılmamış özvektörlerin elemanları, yani karşılık gelen bileşen varyansları veya özdeğerleriyle donatılmış özvektörlerdir.F2
Yükleme grafiği resimdeki düzlemdir. Sadece değişkenini ele alalım . Alışkanlıkla bir yükleme arsa üzerinde çizilen ok işaretli budur h ' burada; koordinatları , bir 1 , bir 2 yüklemeleri olan V ile F 1 ve F 2Vh′a1a2VF1F2 , sırasıyla (yani terminolojik "bir değişken parça yükler", bunun tam tersi demek daha doğru bilgi bakınız).
Ok vektörü, bileşen düzlemde, çıkıntıdır h değişken gerçek konumunu olan V tarafından kapsanan alan değişkenler olarak V , W , U . Vektörün kare uzunluğu, s 2 , bir varyans bir bölgesinin V . Süreh′hVVWUh2aV olanbu varyans kısmı açıklanmıştır, iki bileşen ile.h′2
Yükleme, korelasyon, öngörülen korelasyon . Değişkenler, bileşenlerin önceden ekstraksiyon merkezli edildi çünkü olan Pearson korelasyon arasında V ve bileşen F 1 . İle bu karıştırılmamalıdır çünkü a bir miktar yükleme arsa üzerinde: komponent arasındaki Pearson korelasyon olduğu F 1 ve burada vektörel değişken h ' . Değişken olarak,cosϕVF1cosαF1h′ , V'nin lineer regresyondaki (standartlaştırılmış) bileşenler tarafından tahminidir (lineer regresyon geometrisininçizimiyle karşılaştırın)h′V) Yükler 'nın regresyon katsayıları olduğu durumlarda (bileşenler çıkarıldığı gibi dik tutulduğunda).a
Daha ileri. Biz (trigonometri) olduğunu hatırlarsınız . Vektör V ile birim uzunluk vektörü F 1 : h ⋅ 1 ⋅ cos ϕ arasındaki skaler ürün olarak anlaşılabilir . F 1 hiçbir kendi çünkü bu birim varyans vektör ayarlanmış kendi bu varyans ayrı varyans V bu açıklar (miktar ile h ' ie:) F 1a1=h⋅cosϕVF1h⋅1⋅cosϕF1Vh′F1dışarıdan davet edilen bir varlık değil, V, W, U'dan çıkarılır. Sonra, açıkça, ,Vilestandart, birim ölçeklibarasındakikovaryanstır(sa1=varV⋅varF1−−−−−−−−−−√⋅r=h⋅1⋅cosϕVb) bileşenF1. Bu kovaryans, giriş değişkenleri arasındaki kovaryanslarla doğrudan karşılaştırılabilir; örneğin,VveWarasındaki kovaryans, vektör uzunluklarının aralarındaki kosinüs ile çarpımı sonucu olacaktır.s1=varF1−−−−−√=1F1VW
Özetle: yükleme standart bileşen ve gözlenen değişken arasında, kovaryans olarak görülebilir h ⋅ 1 ⋅ cos φ bölgesinin veya eşdeğer (arsa tanımlayan tüm bileşenleri tarafından) açıklandığı standart bileşen arasındaki görüntü değişken, h ′ ⋅ 1 ⋅ cos α . Bu cos α , F1-F2 bileşeni alt uzayına yansıtılan V-F1 korelasyonu olarak adlandırılabilir .a1h⋅1⋅cosϕh′⋅1⋅cosαcosα
Bir değişken ile bir bileşen arasındaki yukarıda belirtilen korelasyon, olarak da standartlaştırılmış veya yeniden ölçeklendirilmiş yükleme olarak adlandırılır . [-1,1] aralığında olduğu için bileşenlerin yorumlanmasında kullanışlıdır.cosϕ=a1/h
Özvektörlerle ilişki . Yeniden olçeklendirilmiş yükleme gerekir değil ile karıştırılmamalıdır özvektör bildiğimiz - - elemanı olan bir değişken ile bir ana bileşen arasındaki açının kosinüs. Yüklemenin, bileşenin tekil değeri (özdeğer değerinin karekökü) ile ölçeklendirilmiş özvektör elemanı olduğunu hatırlayın . Yani grafiğimizin V değişkeni için : a 1 = e 1 s 1 , burada s 1 st'dir. F 1'in sapması ( 1 değil orijinal, yani tekil değer)cosϕVa1=e1s1s11F1Gizli değişken. Sonra özvektör elemanı ,cosϕ'ninkendisi değil. İki tür "kosinüs" etrafındaki karışıklık, ne tür bir alan temsilinde olduğumuzu hatırladığımızda çözülür. Özvektör değeri,bir değişkenin eksen olarak pr'yedönme açısınınkosinüsüdür. bileşen gibi değişken uzayda eksenolarak (buradadağılım grafiği görünümü). ikencose1=a1s1=hs1cosϕcosϕ bizim yükleme arsa üzerindekosinüs benzerliği ölçüsüdürvektör ve bir pr olarak bir değişken arasına. Bileşen olarak ... iyi .. vektör olarak da, isterseniz (arsa üzerinde eksen olarak çizilmesine rağmen), - çünkü şu andacosϕ konu alanındayız İlişkili değişkenlerin vektörlerin hayranları olduğu (dikey eksenler değil) ve vektör açıları, birleşim ölçüsüdür - uzay tabanı dönüşü değildir.
Yükleme, bir değişken ile birim ölçekli bir bileşen arasındaki açısal (yani skaler ürün tipi) ilişkilendirme ölçüsüdür ve yeniden ölçeklendirilmiş yükleme, değişkenin ölçeğinin birime indirildiği standartlaştırılmış yüklemedir, ancak özvektör katsayısı, bileşen "standartların altında", yani ölçeğine getirildi (1 yerine); alternatif olarak, değişkenin ölçeğinin h / s'ye getirildiği ölçeklendirilmiş bir yükleme olarak düşünülebilir.1/sh/s (1 yerine) .
Peki, bir değişken ve bir bileşen arasındaki ilişkiler nelerdir? Ne istediğinizi seçebilirsiniz. Yükleme olabilir (birim ölçekli bileşenle kovaryans) ; yeniden olçeklendirilmiş yükleme cos cp (= değişken bileşenli korelasyon); arasındaki korelasyon resim (tahmin) ve bileşen (= korelasyon öngörülen cos a ). Hatta özvektör katsayısı e = a /a cosϕcosαolursa s'yi de seçebilirsiniz (bunun bir nedeni olabileceğini merak ediyorum). Veya kendi tedbirinizi icat edin.e=a/s
Özvektör değeri karesi , bir değişkenin pr'ye katkısının anlamıdır. bileşen. Yeniden boyutlandırılmış yükleme karesi , pr'nin katkısı anlamına gelir. bileşenini değişkene dönüştürür.
Korelasyonlara dayalı PCA ile ilişki. PCA tarafından analiz edildiğimizde sadece ortalanmış değil aynı zamanda standartlaştırılmış (ortalanmış sonra birim varyans ölçeklendirilmiş) değişkenler varsa, üç değişken vektörü (düzlemdeki çıkıntıları değil) aynı birim uzunluğunda olacaktır. Daha sonra , bir değişkenin bir bileşen arasında bir yüklemenin kovaryans değil korelasyon olduğunu otomatik olarak takip eder . Ama bu ilişki olmayacak "standardize yükleme" eşit ait çünkü PCA standardize değişkenlerin, (tıpkı merkezli değişkenlerin analizine dayalı) Yukarıdaki resimde (korelasyon tabanlı PCA) sağladığını farklı merkezli değişkenlerin PCA (daha bileşenlerini kovaryans tabanlı PCA). Korelasyon tabanlı PCA ise bir 1cosϕ çünkü h = 1 , ancak temel bileşenlerkovaryans tabanlı PCA'dan aldığımızlaaynıtemel bileşenlerdeğildir(okuma,okuma).a1=cosϕh=1
In faktör analizi , yükleme arsa temelde PCA ile aynı konsept ve yorumunu vardır. Sadece (ama önemli ) farkı maddedir . Faktör analizinde, h ′ - o zaman değişkenin "komünalitesi" olarak adlandırılır - varyansının değişkenler arasındaki korelasyonlardan özel olarak sorumlu ortak faktörler tarafından açıklanan kısmıdır . PCA iken kısmı izah h 'h′h′ h′brüt "karışım" dır - değişkenler arasında kısmen korelasyon ve kısmen ilgisizliği temsil eder. Faktör analizi ile, resmimizdeki yüklerin düzlemi farklı bir şekilde yönlendirilecektir (aslında, 3d değişkenlerimizin alanından dışarıya çekemeyeceğimiz 4. boyuta kadar uzanacaktır; yükleme düzlemi, 3d uzay tarafından yayılmış ve diğer iki değişken), ve çıkıntı h ' bir uzunlukta ve başka bir açı olacak a . (PCA ve faktör analizi arasındaki teorik fark burada geometrik olarak burada konu alanı gösterimi ve burada değişken alan gösterimi ile açıklanmaktadır.)Vh′α
@Antoni Parellada'nın isteğine verilen yanıt. Varyansveyasaçılma(sapma SS)cinsinden konuşmayı tercih edip etmemeniz eşdeğerdir: varyans = dağılım / (n-1), buradanörneklem büyüklüğüdür. Aynınile bir veri kümesi ile uğraştığımız için, sabit formüllerde hiçbir şeyi değiştirmez. EğerX,veri olup kovaryans matrisi (B) dağılım matris eigendecomposition aynı öz (bileşen varyansları) ve özvektörler verir, bunun (A) 'nın daha sonra eigendecomposition (değişkenler V, W, U ortalanmış) X ' Xa,b/(n−1)nnXX′Xilk bölme sonra elde edilen tarafından √X faktörü. Bundan sonra, bir yükleme formülde (cevap orta bölümüne bakınız), bir1=H⋅s1⋅cosφterimiholanst. sapma √n−1−−−−−√a1=h⋅s1⋅cosϕh (a) 'da kök dağılım (diğer bir deyişle normu) içinde‖V‖(B)' de. Terims1eşittir1,olduğustandardizeF1bileşenin st. sapma √varV−−−−√∥V∥s11F1 in (A) ancak kök saçılması‖F1‖in (B). Son olarak,cosϕ=r,hesaplamalarından-1kullanımınaduyarsızolan korelasyondur. Böylece, sadecesözdeğerleri kendileri her iki durumda da formül ile aynı kalırken, varyanslar (A) 'nın ya da scatter (B) kavramsal.varF1−−−−−√∥F1∥cosϕ=rn−1