Aynı veri kümesinde PCA ve açımlayıcı Faktör Analizi: farklılıklar ve benzerlikler; faktör modeli vs PCA


19

Aynı veri kümesinde temel bileşen analizi (PCA) ve açımlayıcı faktör analizi (EFA) yapmanın herhangi bir mantıklı olup olmadığını bilmek istiyorum. Profesyonellerin açıkça tavsiye ettiğini duydum:

  1. Analizin amacının ne olduğunu anlayın ve veri analizi için PCA veya EFA'yı seçin;
  2. Bir analizi yaptıktan sonra diğer analizi yapmaya gerek yoktur.

İkisi arasındaki motivasyon farklılıklarını anlıyorum, ama sadece PCA ve EFA'nın sonuçlarını aynı anda yorumlarken yanlış bir şey olup olmadığını merak ediyordum?


8
Neden güvensizlik? İkisi arasındaki motivasyon farklılıklarını anlarsanız, iki konumdan birinde olmalısınız: Bunları tamamlayıcı olarak kabul edin ve her ikisini de keşfetmeye istekli olun. Yapmak istedikleriniz için daha ikna edici olun. Yapmanız gereken doğru bir şey olduğu söyleniyor gibi görünüyor, ancak FA ile veya FA'ya karşı PCA o kadar uzun süredir devam eden bir tartışma alanıdır, eğer iki uzman kabul ederse, genellikle sadece ikisinin de üçüncü bir uzmanla aynı fikirde olmadığı, ancak farklı nedenler.
Nick Cox

Ne çalışıyorsun? Bazı sosyal bilimler mutluluk gibi mi, faiz oranları gibi nesnel veriler mi?
Aksakal

Yanıtlar:


20

Her iki model - temel bileşen ve ortak faktör - gözlenen değişkenleri gizli değişkenlere göre tahmin eden benzer basit doğrusal regresyon modelleri. V1 V2 ... Vp değişkenlerini ortalayalım ve 2 bileşen / faktör FI ve FII çıkarmayı seçtik . O zaman model denklemler sistemidir:

V1=a1IFI+a1IIFII+E1

V2=a2IFI+a2IIFII+E2

...

Vp=

burada a katsayısı bir yük, F bir faktör ya da bir bileşendir ve E değişkeni regresyon kalıntılarıdır. Burada, FA modeli gelen farklılık PCA modeli tam olarak FA gereksinimi dayatması ile: değişkenler E1 E2 ... Ep (istatistiksel olarak ilintisiz hata terimleri F ler) gerekir korelatı değil birbirini (ile bakın resim ). Bu hata değişkenleri FA "benzersiz faktörler" olarak adlandırılır; varyansları bilinir ("benzersizlikler") ancak bunların kalay değerleri bilinmemektedir. Bu nedenle, F faktör puanları sadece iyi yaklaşımlar olarak hesaplanır, kesin değildir.

(Bu ortak faktör analizi modelinin bir matris cebiri sunumu Dipnot .)1

PCA'da farklı değişkenleri tahmin etmekten kaynaklanan hata değişkenleri serbestçe ilişkili olabilir: bunlara hiçbir şey yüklenmez. Onlar, soldaki p-2 boyutlarını aldığımız "çapağı" temsil ediyor . E değerlerini biliyoruz ve bu nedenle F bileşen puanlarını kesin değerler olarak hesaplayabiliyoruz .

PCA modeli ile FA modeli arasındaki fark buydu.

Yukarıda özetlenen farkın nedeni, FA'nın ikili korelasyonları (kovaryanslar) açıklayabilmesidir. PCA genellikle bunu yapamaz (çıkarılan bileşen sayısı = p olmadığı sürece ); sadece çok değişkenli varyansı açıklayabilir . Dolayısıyla korelasyonları açıklamak amacıyla "Faktör analizi" terimi tanımlandığı sürece, PCA faktör analizi değildir . "Faktör analizi" daha geniş bir şekilde yorumlanabilen gizli "özellikler" sağlayan veya öneren bir yöntem olarak tanımlanırsa, PCA , faktör analizinin özel ve en basit biçimidir .2

Bazen - bazı veri kümelerinde belirli koşullar altında - PCA , neredeyse birbiriyle ilişkili olmayan E terimlerini bırakır . Daha sonra PCA korelasyonları açıklayabilir ve FA gibi olabilir. Çok değişkenli veri kümelerinde çok nadir değildir. Bu, bazı gözlemcilerin, veri büyüdükçe PCA sonuçlarının FA sonuçlarına yakın olduğunu iddia etmelerini sağladı. Bunun bir kural olduğunu düşünmüyorum, ama eğilim gerçekten de olabilir. Her neyse, teorik farklılıkları göz önüne alındığında, yöntemi bilinçli olarak seçmek her zaman iyidir. FA, değişkenleri, değişkenlerin arkasında duran ve birbiriyle ilişkili hale getiren gerçek gizli özellikler olarak göreceğiniz latentlere indirgemek istiyorsanız daha gerçekçi bir modeldir.

Ancak başka bir hedefiniz varsa - veri bulutunun noktaları arasındaki mesafeleri mümkün olduğunca korurken boyutsallığı azaltın - PCA, FA'dan daha iyidir. (Bununla birlikte, yinelemeli Çok Boyutlu Ölçekleme (MDS) prosedürü daha da iyi olacaktır. PCA , iteratif olmayan metrik MDS'ye eşittir.) Mesafelerle daha fazla uğraşmazsanız ve yalnızca verilerin toplam varyansının çoğunu korumakla ilgileniyorsanız olabildiğince az boyutla - PCA en uygun seçimdir.


V = F A + E d i a g ( u ) V F A E u u 2 E d i a g ( u )1 faktör analizi veri modeli: , olan , (sütun ortalanmış veya standart) verileri analiz bir ortak faktör değerleri (bilinmeyen gerçek olanlar değil, birim varyans ile faktör skorları), olan ortak faktör yükleri (model matris) matris, olan benzersiz faktörü değerleri (bilinmeyen), olan yüklemeler sq eşit benzersiz faktörü vektörü. tekliklerin kökü ( ). Porsiyon gibi etiketli olabilir " EV=FA+Ediag(u)Vn cases x p variablesFn x mAp x mEn x pupu2Ediag(u)"cevabı açan formüllerde olduğu gibi basitlik için.

Modelin temel varsayımları:

  • E E F VF ve değişkenleri (sırasıyla ortak ve benzersiz faktörler) sıfır ortalamaya ve birim varyanslara sahiptir; tipik olarak çok değişkenli normal olduğu varsayılır, ancak genel durumda çok değişkenli normal olması gerekmez (her ikisinin de çok değişkenli normal olduğu varsayılırsa de öyle);EEFV
  • FE değişkenleri birbiriyle ilişkisizdir ve değişkenleriyle ilişkisizdir .F

A A ( m ) Σ2 ortak izler faktör analizi modeli yükleri o ait m bir çok faktör ( m, < p değişkenleri) de gösterilen yakından değişkenler arasında gözlenen kovaryansın (ya da korelasyonlar) yeniden olmalıdır, . Yani faktörler ortogonal ise, temel olduğunu faktör teoremi belirtiyorAA(m)Σ

Σ Σ +di, birg(u2)Σ^=AA ve ,ΣΣ^+diag(u2)

burada köşegenindeki ortak varyanslarla ("ortaklıklar") çoğaltılan kovaryansların (veya korelasyonların) matrisidir; ve varyanslar eksi topluluklar olan benzersiz varyanslar ("benzersizlikler"), vektörüdür . Diyagonal olmayan tutarsızlık ( ), faktörlerin veri üreten teorik bir model olması ve bu nedenle üzerine inşa edildiği gözlemlenen verilerden daha basit olmasından kaynaklanmaktadır. Gözlenen ve çoğaltılan kovaryanslar (veya korelasyonlar) arasındaki tutarsızlığın ana nedenleri şunlar olabilir: (1) m faktör sayısı istatistiksel olarak optimal değildir; (2) kısmi korelasyonlar (bunlar u2Σ^u2p(p-1)/2ortak faktörlere ait olmayan faktörler) telaffuz edilir; (3) iyi değerlendirilmeyen topluluklar, başlangıç ​​değerleri zayıftı; (4) ilişkiler doğrusal değildir, doğrusal model kullanılarak sorgulanabilir; (5) ekstraksiyon yöntemi ile üretilen model "alt tipi" veriler için uygun değildir (farklı ekstraksiyon yöntemleri hakkında bilgi edinin ). Başka bir deyişle, bazı FA veri varsayımları tam olarak karşılanmamıştır.

Düz PCA'ya gelince , m = p (tüm bileşenler kullanıldığında) tam olarak yüklemelerle kovaryansları yeniden üretir ve m < p ise (sadece birkaç 1. bileşen tutulursa) genellikle başarısız olur . PCA için faktör teoremi:

Σ=AA(p)=AA(m)+AA(pm) ,

bu nedenle hem yüklemeleri hem de düşürülen yüklemeleri, toplulukların ve tekliklerin karışımlarıdır ve her ikisi de tek tek kovaryansların geri kazanılmasına yardımcı olamaz. M , p'ye ne kadar yakın olursa, kural olarak daha iyi PCA kovaryansları geri yükler, ancak küçük m (genellikle bizim ilgi alanımızdır) yardımcı olmaz. Bu, oldukça az sayıda optimal faktörle kovaryansları geri yüklemeyi amaçlayan FA'dan farklıdır . Eğer ile, diagonality PCA FA gibi olur yaklaşımlarıA(m)A(pm)AA(pm)A(m)tüm kovaryansların geri yüklenmesi. Daha önce de bahsettiğim gibi PCA ile zaman zaman oluyor. Ancak PCA'nın bu tür bir köşegenleştirmeyi zorlamak için algoritmik bir yeteneği yoktur. Bunu yapan FA algoritmalarıdır.

PCA değil FA veri üreten bir modeldir: kovaryanslar için "gerçek" değerler üreten birkaç "gerçek" ortak faktörü (genellikle bilinmeyen bir sayıya sahiptir, bu nedenle bir aralıkta m denersiniz) olduğunu varsayar . Gözlenen kovaryanslar "gerçek" olanlar + küçük rastgele gürültüdür. (Bu nedeniyle gerçekleştirilen köşegenleştirilmesi bu yapraklı taban üzerinde gürültü. Küçük ve rastgele olabilir tüm covariances arasında restoratör) girişimi aşırı uyuma uygun miktarda daha fazla faktörler uygun çalışmak, ve mutlaka verimli aşırı takma denemesi.A(m)

Hem FA hem de PCA en üst düzeye çıkarmayı amaçlamaktadır , ancak PCA için tek hedef budur; FA için eşzamanlı hedeftir, diğeri benzersizliği köşegenleştirmektir. Bu iz PCA'daki özdeğerlerin toplamıdır. FA'da bazı ekstraksiyon yöntemleri, izi en üst düzeye çıkarmak pahasına daha fazla eşzamanlı hedefler ekler, bu nedenle temel öneme sahip değildir.trace(AA(m))

İki yöntem arasındaki açıklanmış farklılıkları özetlemek. FA ( doğrudan veya dolaylı olarak ) ve tek tek karşılık gelen köşegen olmayan elemanları arasındaki farkları en aza indirmeyi amaçlamaktadır . Başarılı bir FA modeli, kovaryanslar için hataları küçük ve rastgele benzeri bırakan modeldir (normal veya tekdüze yaklaşık 0, aykırı değer / yağ kuyruğu yok). PCA yalnızca (ve değerine eşit değerini en üst düzeyeA A t r a c e ( A A ) t r a c e ( A A ) A AΣAAtrace(AA)trace(AA)AAköşegen matris olan ana bileşenlerin kovaryans matrisine eşittir). Bu nedenle PCA tüm bireysel kovaryanslarla "meşgul" değildir: basitçe, verilerin dikey bir dönüşü biçimi olamaz.

İzi en üst düzeye çıkarmak sayesinde - m bileşenleri tarafından açıklanan varyans - PCA , kovaryans paylaşılan varyans olduğu için kovaryansları hesaba katar. Bu anlamda PCA, değişkenlerin tüm kovaryans matrisinin "düşük dereceli yaklaşımı" dır . Gözlemler açısından bakıldığında bu yaklaşım, Öklid-uzaklık gözlem matrisinin yakınlaştırılmasıdır (bu yüzden PCA, "Ana koordinat analizi" olarak adlandırılan metrik MDS'dir) Bu gerçek, PCA'nın modellemediği gerçeğinden bizi taramamalıdır. Değişkenlerimize karşı aşkın olarak hayal edilebilecek birkaç canlı gizli özellik tarafından üretilen kovaryans matrisi (her bir kovaryans); PCA yaklaşımı, iyi olsa bile, hala kalır: verilerin basitleştirilmesi.


PCA ve FA'da yapılan adım adım hesaplamaları görmek, yorumlamak ve karşılaştırmak istiyorsanız, lütfen buraya bakın .


Mükemmel bir cevap.
Subhash C.Davar

2
Bana PCA'ya yeni bir bakış açısı getirdiği için +1. Şimdi anladığım kadarıyla, hem PCA hem de FA gözlenen değişkenlerin varyansını açıklayabilir ve FA her değişken için hata terimlerinin ilişkili olmaması gerektiğini belirtirken PCA bu tür bir dikte yapmaz, böylece FA tüm kovaryansı yakalayabilir gözlenen değişkenler, ancak PCA bunu yapamaz, çünkü PCA'da, gözlenen değişkenleri temsil etmek için tüm PC'yi kullanmadığımız sürece, hata terimleri de gözlenen değişkenlerin bir miktar kovaryansını içerebilir, değil mi?
avokado

1
Kesinlikle. PCA sadece bir kovaryans değerini hafife almakla kalmaz (muhtemelen düşündüğünüz gibi), aynı zamanda onu fazla tahmin edebilir. Kısacası, PCA için normal davranış olan a1 * a2 <Cov12 . FA için bu, yetersiz çözümün işareti olacaktır (örneğin, çıkarılan yanlış sayıda faktör).
ttnphns

Σ=WW+σ2IΣ=WW+ΨΨ
amoeba Reinstate Monica diyor ki

@amoeba, köşegen olmayan unsurları teorik olarak FA tarafından geri yüklenir ( = yüklemeler), ancak düz PCA'da teorik olarak geri yüklenmezler (bu yüzden köşegen değildir, ancak karedir, PCA'da). PPCA çalışmadım, üzgünüm (Bishop'un kitabını indirmek mümkün mü?). nedir ? Ve lütfen "izotropik" i tanımlayın. W W W Ψ σ 2ΣWWWΨσ2
ttnphns

6

Aşağıdaki iş parçacığında PCA ve FA arasındaki benzerlikler ve farklılıklar hakkında kendi hesabımı verdim: EFA yerine PCA kullanmak için iyi bir neden var mı? Ayrıca, PCA faktör analizi yerine kullanılabilir mi?

Hesabımın @ttnphns hesabından biraz farklı olduğunu unutmayın (yukarıdaki cevabında belirtildiği gibi). Ana iddiam, PCA ve FA'nın sık sık düşünüldüğü kadar farklı olmadıklarıdır. Değişken sayısı çok düşük olduğunda gerçekten çok farklı olabilirler, ancak değişken sayısı yaklaşık bir düzine aştığında oldukça benzer sonuçlar verme eğilimindedirler. Matematiksel detaylar ve Monte Carlo simülasyonları için bağlantılı dizideki [uzun!] Cevabımı görün. Argümün çok daha kısa bir versiyonu için buraya bakın: PCA ve FA hangi koşullar altında benzer sonuçlar verir?

Burada açıkça ana sorunuza cevap vermek istiyorum: Aynı veri kümesinde PCA ve FA gerçekleştirmeyle ilgili bir sorun var mı? Buna cevabım: Hayır.

PCA veya FA çalıştırırken herhangi bir hipotezi test etmiyorsunuz. Her ikisi de verileri daha iyi anlamak için kullanılan keşif teknikleridir. Öyleyse neden iki farklı araçla veriyi araştırmıyorsunuz? Aslında yapalım!

Örnek: şarap veri seti

Bir örnek olarak, değişkenlerle tanımlanan üç farklı üzümden şarap ile oldukça iyi bilinen bir şarap veri seti kullandım . Cevabımı buradan görebilirsiniz: Faktör Analizi ile Temel Bileşen Analizi arasındaki farklar nelerdir? mod detayları için, ama kısaca - Hem PCA hem de FA analizini çalıştırdım ve her ikisi için de 2D biplots yaptım. Farkın minimum olduğunu kolayca görebilirsiniz:p = 13n=178p=13

Şarap veri kümesinin PCA ve FA analizi


If the results turn out to be very similar, then you can decide to stick with only one approach. Elbette. O zaman ne kadar benzer? If the results turn out to be very different, then maybe it tells you something about your dataBu mükemmel mistik ve ezoterik.
ttnphns

Hmmm, belirsiz olduğu için özür dilerim. Demek istediğim, çok sayıda değişken varsa ve PCA FA'dan çok farklı yükler verirse, bize bir şey söyler. Belki de topluluklar çok düşüktür (yani, korelasyon matrisine diyagonal hakimdir ve diyagonal olmayan elemanlar küçüktür). Bu ilginç bir gözlem olabilir. Herhangi bir nedenle PCA ve FA ile aynı veri kümesini analiz etsem ve çok farklı sonuçlar elde etsem, daha fazla araştırırdım. Mantıklı geliyor?
amip diyor Reinstate Monica

@ttnphns: Belirli bir veri kümesi için hazırlanmış bir örnekle güncelleme yaptım. Umarım tadını çıkarırsın! Bağlantılı (yeni) yanıtı da görün. İlk kez bir FA biplotu yaptım ve önceki konuşmalarımız bana bunun için çok yardımcı oldu.
amip diyor Reinstate Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.