Her iki model - temel bileşen ve ortak faktör - gözlenen değişkenleri gizli değişkenlere göre tahmin eden benzer basit doğrusal regresyon modelleri. V1 V2 ... Vp değişkenlerini ortalayalım ve 2 bileşen / faktör FI ve FII çıkarmayı seçtik . O zaman model denklemler sistemidir:
V1=a1IFI+a1IIFII+E1
V2=a2IFI+a2IIFII+E2
...
Vp=…
burada a katsayısı bir yük, F bir faktör ya da bir bileşendir ve E değişkeni regresyon kalıntılarıdır. Burada, FA modeli gelen farklılık PCA modeli tam olarak FA gereksinimi dayatması ile: değişkenler E1 E2 ... Ep (istatistiksel olarak ilintisiz hata terimleri F ler) gerekir korelatı değil birbirini (ile bakın resim ). Bu hata değişkenleri FA "benzersiz faktörler" olarak adlandırılır; varyansları bilinir ("benzersizlikler") ancak bunların kalay değerleri bilinmemektedir. Bu nedenle, F faktör puanları sadece iyi yaklaşımlar olarak hesaplanır, kesin değildir.
(Bu ortak faktör analizi modelinin bir matris cebiri sunumu Dipnot .)1
PCA'da farklı değişkenleri tahmin etmekten kaynaklanan hata değişkenleri serbestçe ilişkili olabilir: bunlara hiçbir şey yüklenmez. Onlar, soldaki p-2 boyutlarını aldığımız "çapağı" temsil ediyor . E değerlerini biliyoruz ve bu nedenle F bileşen puanlarını kesin değerler olarak hesaplayabiliyoruz .
PCA modeli ile FA modeli arasındaki fark buydu.
Yukarıda özetlenen farkın nedeni, FA'nın ikili korelasyonları (kovaryanslar) açıklayabilmesidir. PCA genellikle bunu yapamaz (çıkarılan bileşen sayısı = p olmadığı sürece ); sadece çok değişkenli varyansı açıklayabilir . Dolayısıyla korelasyonları açıklamak amacıyla "Faktör analizi" terimi tanımlandığı sürece, PCA faktör analizi değildir . "Faktör analizi" daha geniş bir şekilde yorumlanabilen gizli "özellikler" sağlayan veya öneren bir yöntem olarak tanımlanırsa, PCA , faktör analizinin özel ve en basit biçimidir .2
Bazen - bazı veri kümelerinde belirli koşullar altında - PCA , neredeyse birbiriyle ilişkili olmayan E terimlerini bırakır . Daha sonra PCA korelasyonları açıklayabilir ve FA gibi olabilir. Çok değişkenli veri kümelerinde çok nadir değildir. Bu, bazı gözlemcilerin, veri büyüdükçe PCA sonuçlarının FA sonuçlarına yakın olduğunu iddia etmelerini sağladı. Bunun bir kural olduğunu düşünmüyorum, ama eğilim gerçekten de olabilir. Her neyse, teorik farklılıkları göz önüne alındığında, yöntemi bilinçli olarak seçmek her zaman iyidir. FA, değişkenleri, değişkenlerin arkasında duran ve birbiriyle ilişkili hale getiren gerçek gizli özellikler olarak göreceğiniz latentlere indirgemek istiyorsanız daha gerçekçi bir modeldir.
Ancak başka bir hedefiniz varsa - veri bulutunun noktaları arasındaki mesafeleri mümkün olduğunca korurken boyutsallığı azaltın - PCA, FA'dan daha iyidir. (Bununla birlikte, yinelemeli Çok Boyutlu Ölçekleme (MDS) prosedürü daha da iyi olacaktır. PCA , iteratif olmayan metrik MDS'ye eşittir.) Mesafelerle daha fazla uğraşmazsanız ve yalnızca verilerin toplam varyansının çoğunu korumakla ilgileniyorsanız olabildiğince az boyutla - PCA en uygun seçimdir.
V = F A ′ + E d i a g ( u ) V F A E u u 2 E d i a g ( u )1 faktör analizi veri modeli: , olan , (sütun ortalanmış veya standart) verileri analiz bir ortak faktör değerleri (bilinmeyen gerçek olanlar değil, birim varyans ile faktör skorları), olan ortak faktör yükleri (model matris) matris, olan benzersiz faktörü değerleri (bilinmeyen), olan yüklemeler sq eşit benzersiz faktörü vektörü. tekliklerin kökü ( ). Porsiyon gibi etiketli olabilir " EV = F A'+ E dben bir g( u )Vn cases x p variables
Fn x m
birp x m
En x p
up
u2E dben bir g( u )"cevabı açan formüllerde olduğu gibi basitlik için.
Modelin temel varsayımları:
- E E F VF ve değişkenleri (sırasıyla ortak ve benzersiz faktörler) sıfır ortalamaya ve birim varyanslara sahiptir;
tipik olarak çok değişkenli normal olduğu varsayılır, ancak genel durumda çok değişkenli normal olması gerekmez (her ikisinin de çok değişkenli normal olduğu varsayılırsa de öyle);EEFV
- FE değişkenleri birbiriyle ilişkisizdir ve değişkenleriyle ilişkisizdir .F
A A ( m ) Σ2 ortak izler faktör analizi modeli yükleri o ait m bir çok faktör ( m, < p değişkenleri) de gösterilen yakından değişkenler arasında gözlenen kovaryansın (ya da korelasyonlar) yeniden olmalıdır, . Yani faktörler ortogonal ise, temel olduğunu faktör teoremi belirtiyorbirbir( m )Σ
Σ≈ Σ +di, birg(u2)Σ^= A A' ve ,Σ≈Σ^+diag(u2)
burada köşegenindeki ortak varyanslarla ("ortaklıklar") çoğaltılan kovaryansların (veya korelasyonların) matrisidir; ve varyanslar eksi topluluklar olan benzersiz varyanslar ("benzersizlikler"), vektörüdür . Diyagonal olmayan tutarsızlık ( ), faktörlerin veri üreten teorik bir model olması ve bu nedenle üzerine inşa edildiği gözlemlenen verilerden daha basit olmasından kaynaklanmaktadır. Gözlenen ve çoğaltılan kovaryanslar (veya korelasyonlar) arasındaki tutarsızlığın ana nedenleri şunlar olabilir: (1) m faktör sayısı istatistiksel olarak optimal değildir; (2) kısmi korelasyonlar (bunlar u2≈Σ^u2≈p(p-1)/2
ortak faktörlere ait olmayan faktörler) telaffuz edilir; (3) iyi değerlendirilmeyen topluluklar, başlangıç değerleri zayıftı; (4) ilişkiler doğrusal değildir, doğrusal model kullanılarak sorgulanabilir; (5) ekstraksiyon yöntemi ile üretilen model "alt tipi" veriler için uygun değildir (farklı ekstraksiyon yöntemleri hakkında bilgi edinin ). Başka bir deyişle, bazı FA veri varsayımları tam olarak karşılanmamıştır.
Düz PCA'ya gelince , m = p (tüm bileşenler kullanıldığında) tam olarak yüklemelerle kovaryansları yeniden üretir ve m < p ise (sadece birkaç 1. bileşen tutulursa) genellikle başarısız olur . PCA için faktör teoremi:
Σ=AA′(p)=AA′(m)+AA′(p−m) ,
bu nedenle hem yüklemeleri hem de düşürülen yüklemeleri, toplulukların ve tekliklerin karışımlarıdır ve her ikisi de tek tek kovaryansların geri kazanılmasına yardımcı olamaz. M , p'ye ne kadar yakın olursa, kural olarak daha iyi PCA kovaryansları geri yükler, ancak küçük m (genellikle bizim ilgi alanımızdır) yardımcı olmaz. Bu, oldukça az sayıda optimal faktörle kovaryansları geri yüklemeyi amaçlayan FA'dan farklıdır . Eğer ile, diagonality PCA FA gibi olur yaklaşımlarıA(m)A(p−m)AA′(p−m)A(m)tüm kovaryansların geri yüklenmesi. Daha önce de bahsettiğim gibi PCA ile zaman zaman oluyor. Ancak PCA'nın bu tür bir köşegenleştirmeyi zorlamak için algoritmik bir yeteneği yoktur. Bunu yapan FA algoritmalarıdır.
PCA değil FA veri üreten bir modeldir: kovaryanslar için "gerçek" değerler üreten birkaç "gerçek" ortak faktörü (genellikle bilinmeyen bir sayıya sahiptir, bu nedenle bir aralıkta m denersiniz) olduğunu varsayar . Gözlenen kovaryanslar "gerçek" olanlar + küçük rastgele gürültüdür. (Bu nedeniyle gerçekleştirilen köşegenleştirilmesi bu yapraklı taban üzerinde gürültü. Küçük ve rastgele olabilir tüm covariances arasında restoratör) girişimi aşırı uyuma uygun miktarda daha fazla faktörler uygun çalışmak, ve mutlaka verimli aşırı takma denemesi.A(m)
Hem FA hem de PCA en üst düzeye çıkarmayı amaçlamaktadır , ancak PCA için tek hedef budur; FA için eşzamanlı hedeftir, diğeri benzersizliği köşegenleştirmektir. Bu iz PCA'daki özdeğerlerin toplamıdır. FA'da bazı ekstraksiyon yöntemleri, izi en üst düzeye çıkarmak pahasına daha fazla eşzamanlı hedefler ekler, bu nedenle temel öneme sahip değildir.trace(A′A(m))
İki yöntem arasındaki açıklanmış farklılıkları özetlemek. FA ( doğrudan veya dolaylı olarak ) ve tek tek karşılık gelen köşegen olmayan elemanları arasındaki farkları en aza indirmeyi amaçlamaktadır . Başarılı bir FA modeli, kovaryanslar için hataları küçük ve rastgele benzeri bırakan modeldir (normal veya tekdüze yaklaşık 0, aykırı değer / yağ kuyruğu yok). PCA yalnızca (ve değerine eşit değerini en üst düzeyeA A ′ t r a c e ( A A ′ ) t r a c e ( A ′ A ) A ′ AΣAA′trace(AA′)trace(A′A)A′Aköşegen matris olan ana bileşenlerin kovaryans matrisine eşittir). Bu nedenle PCA tüm bireysel kovaryanslarla "meşgul" değildir: basitçe, verilerin dikey bir dönüşü biçimi olamaz.
İzi en üst düzeye çıkarmak sayesinde - m bileşenleri tarafından açıklanan varyans - PCA , kovaryans paylaşılan varyans olduğu için kovaryansları hesaba katar. Bu anlamda PCA, değişkenlerin tüm kovaryans matrisinin "düşük dereceli yaklaşımı" dır . Gözlemler açısından bakıldığında bu yaklaşım, Öklid-uzaklık gözlem matrisinin yakınlaştırılmasıdır (bu yüzden PCA, "Ana koordinat analizi" olarak adlandırılan metrik MDS'dir) Bu gerçek, PCA'nın modellemediği gerçeğinden bizi taramamalıdır. Değişkenlerimize karşı aşkın olarak hayal edilebilecek birkaç canlı gizli özellik tarafından üretilen kovaryans matrisi (her bir kovaryans); PCA yaklaşımı, iyi olsa bile, hala kalır: verilerin basitleştirilmesi.
PCA ve FA'da yapılan adım adım hesaplamaları görmek, yorumlamak ve karşılaştırmak istiyorsanız, lütfen buraya bakın .