Temel bileşen analizinin çıktılarından sonuçlar


9

Aşağıdaki gibi yapılan temel bileşen analizi çıktısını anlamaya çalışıyorum:

> head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa
> res = prcomp(iris[1:4], scale=T)
> res
Standard deviations:
[1] 1.7083611 0.9560494 0.3830886 0.1439265

Rotation:
                    PC1         PC2        PC3        PC4
Sepal.Length  0.5210659 -0.37741762  0.7195664  0.2612863
Sepal.Width  -0.2693474 -0.92329566 -0.2443818 -0.1235096
Petal.Length  0.5804131 -0.02449161 -0.1421264 -0.8014492
Petal.Width   0.5648565 -0.06694199 -0.6342727  0.5235971
> 
> summary(res)
Importance of components:
                          PC1    PC2     PC3     PC4
Standard deviation     1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion  0.7296 0.9581 0.99482 1.00000
> 

Yukarıdaki çıktı aşağıdaki sonuca varmak eğilimindedir:

  1. Varyans oranı, belirli bir ana bileşenin varyansında toplam varyansın ne kadar olduğunu gösterir. Bu nedenle, PC1 değişkenliği, verilerin toplam varyansının% 73'ünü açıklamaktadır.

  2. Gösterilen döndürme değerleri, bazı açıklamalarda belirtilen "yüklemeler" ile aynıdır.

  3. PC1 rotasyonları göz önüne alındığında, Sepal.Length, Petal.Length ve Petal.Width'in doğrudan ilişkili olduğu ve hepsinin Sepal.Width (PC1 rotasyonunda negatif bir değeri olan) ile ters ilişkili olduğu sonucuna varılabilir.

  4. Bitkilerde tüm bu değişkenleri (Sepal.Length, Petal.Length ve Petal.Width bir yönde ve Sepal.

  5. Tüm rotasyonları bir grafikte göstermek istersem, toplam rotasyona göreceli katkılarını, her rotasyonu o ana bileşenin sapma oranıyla çarparak gösterebilirim. Örneğin, PC1 için 0.52, -0.26, 0.58 ve 0.56 dönüşlerinin tümü, özet (res) çıktısında gösterilen 0.73 (PC1 için oransal varyans) ile çarpılır.

Yukarıdaki sonuçlar hakkında haklı mıyım?

5. soru ile ilgili düzenleme: Tüm dönüşleri basit bir çubuk grafikte aşağıdaki gibi göstermek istiyorum: resim açıklamasını buraya girin

PC2, PC3 ve PC4 varyasyona giderek daha az katkıda bulunduğundan, buradaki değişkenlerin yüklenmelerini ayarlamak (azaltmak) mantıklı olacak mı?


Re (5): "yüklemeler" olarak adlandırdığınız şey aslında yüklemeler değil, kovaryans matrisinin özvektörleri, diğer bir deyişle ana yönler, diğer bir deyişle ana eksenlerdir. "Yükler", özvektörlerin öz değerlerinin kare kökleri ile, yani açıklanan varyans oranının kare kökleri ile çarpımıdır. Yüklerin birçok güzel özelliği vardır ve yorumlama için faydalıdır, örneğin bu konuya bakınız: PCA'daki yüklemeler ve özvektörler: ne zaman bir veya daha fazla kullanılır? Yani evet, özvektörlerinizi ölçeklendirmek çok mantıklı, sadece açıklanan varyansın kare köklerini kullanın.
amip

@amoeba: PCA, rotasyon veya yükleme biplotunda neler çizilir?
rnso

Çoğu zaman yüklemeler çizilir, daha fazla tartışma için cevabım bakın .
amip

Yanıtlar:


9
  1. Evet. Bu doğru yorumdur.
  2. Evet, döndürme değerleri bileşen yükleme değerlerini gösterir. Yüklemeler bazı dikey (muhtemelen) veya eğik (daha az olası) bir yöntem kullanılarak döndürüldüğünü ima ettiğinden, neden "Rotasyon" yönünün bu bölümünü etiketlediklerinden emin olmasam da, bu prcomp belgeler tarafından onaylanmıştır .
  3. Sepal.Length, Petal.Length ve Petal.Width'in hepsi olumlu bir şekilde ilişkili olduğu görünse de, Sepal.Width'in PC1 üzerindeki küçük negatif yüklemesinde çok fazla stok koyamazdım; PC2'ye çok daha güçlü bir şekilde (neredeyse tamamen) yüklenir. Net olmak gerekirse, Sepal.Width hala diğer üç değişkenle negatif olarak ilişkilidir, ancak sadece ilk prensip bileşeniyle güçlü bir şekilde ilişkili görünmemektedir.
  4. Bu soruya dayanarak, bir temel bileşenler analizi (PCA) yerine ortak bir faktör (CF) analizi kullanarak daha iyi hizmet edip etmeyeceğinizi merak ediyorum. Hedefiniz anlamlı teorik boyutları ortaya çıkarmak olduğunda daha uygun bir veri azaltma tekniğidir - varsaydığınız bitki faktörü gibi Sepal.Length, Petal.Length ve Petal.Width'i etkileyebilir. Belki bir çeşit biyolojik bilimden (belki de botanik) olduğunuzu takdir ediyorum, ancak Fabrigar ve diğerleri, 1999, Widaman, 2007 ve diğerleri tarafından PCA / CF ayrımında Psikoloji'de iyi bir yazı var. İkisi arasındaki temel fark, PCA'nın tüm varyansların gerçek skor varyansı olduğunu varsaymasıdır - hata kabul edilmez - CF ise faktörler çıkarılmadan ve faktör yüklemeleri tahmin edilmeden önce hata varyansından gerçek puan varyasyonu bölümler. Nihayetinde benzer görünümlü bir çözüm elde edebilirsiniz - insanlar bazen yapar - ancak ayrıldıklarında, PCA'nın yükleme değerlerini abartması ve bileşenler arasındaki korelasyonları hafife alma eğilimi vardır. CF yaklaşımının ek bir avantajı, yükleme değerlerinin anlamlılık testlerini gerçekleştirmek için maksimum olasılık tahminini kullanabilmeniz ve aynı zamanda seçtiğiniz çözümün (1 faktör, 2 faktör, 3 faktör veya 4 faktör) ne kadar iyi olduğunu gösteren bazı indeksler almanızdır. veri.
  5. Faktör yükleme değerlerini, çubuklarını ilgili bileşenleri için varyans oranına göre ağırlıklandırmadan sahip olduğunuz gibi çizerim. Böyle bir yaklaşımla neyi göstermek istediğinizi anlıyorum, ancak okurların analizinizden bileşen yükleme değerlerini yanlış anlamalarına yol açacağını düşünüyorum. Bununla birlikte, her bileşen tarafından hesaplanan göreli varyans büyüklüğünü görsel bir şekilde göstermek istiyorsanız, grup çubuklarının opaklığını manipüle etmeyi düşünebilirsiniz (eğer kullanıyorsanız ggplot2, bununalphaestetik), her bileşen tarafından açıklanan varyans oranına dayanarak (yani, daha düz renkler = daha fazla varyans açıklanmıştır). Ancak, tecrübelerime göre, figürünüz bir PCA'nın sonuçlarını sunmanın tipik bir yolu değil - bence bir veya iki tablo (birinde açıklanan yükler + varyans, diğerinde bileşen korelasyonları) çok daha basit olacaktır.

Referanslar

Fabrigar, LR, Wegener, DT, MacCallum, RC ve Strahan, EJ (1999). Psikolojik araştırmalarda açımlayıcı faktör analizi kullanımının değerlendirilmesi. Psikolojik Yöntemler , 4 , 272-299.

Widaman, KF (2007). Bileşenlere karşı ortak faktörler: İlkeler ve ilkeler, hatalar ve kavram yanılgıları . R. Cudeck ve RC MacCallum'da (Eds.) 100'de Faktör analizi: Tarihi gelişmeler ve gelecekteki yönelimler (s. 177-203). Mahwah, NJ: Lawrence Erlbaum.


2
+1, burada birçok iyi nokta. Re (2): kovaryans matrisinin özvektörlerine burada "Döndürme" denir, çünkü PCA esasen yeni koordinat sistemi özvektörlerle hizalanacak şekilde bir koordinat sisteminin dönüşüdür. Bunun faktör analizindeki "faktörlerin dik / eğik dönüşü" ile ilgisi yoktur. Re (5): Burada ne demek istediğinizi anladığımdan emin değilim ve OP'nin "özvektörleri" bir grafikte "nasıl göstermek istediğini de anlamıyorum. Belki de OP akılda bir biplot gibi bir şeye sahiptir. Sonra evet, özvektörler genellikle özdeğerlerle, ancak kare kökleriyle ölçeklendirilir.
amip

Konunuz için güzel çiçek temalı arsa olsa da, @rnso :)
jsakaluk

1
  1. Hayır, verilerin toplam varyansı değil. 4 temel bileşende ifade etmek istediğiniz verilerin toplam varyansı. Daha fazla prensip bileşeni ekleyerek her zaman daha fazla toplam varyans bulabilirsiniz. Ancak bu hızla bozulur.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.