Faktör skorlarını hesaplama yöntemleri ve PCA veya faktör analizinde “skor katsayısı” matrisi nedir?

Anladığım kadarıyla, PCA'da korelasyonlara dayalı olarak, değişkenler ve faktörler arasındaki korelasyonlardan başka bir şey olmayan faktör (bu örnekte ana bileşen) yükleri alıyoruz. Şimdi SPSS'de faktör puanları üretmem gerektiğinde, her bir faktörün her bir katılımcısının faktör puanlarını doğrudan alabilirim. " Bileşen skor katsayısı matrisini " (SPSS tarafından üretilen şekilde) standartlaştırılmış orijinal değişkenlerle çarptığımda , SPSS'den elde edilen faktör puanlarının aynısını aldığımı da gözlemledim .

Birisi lütfen "bileşen skor katsayısı matrisi" veya "faktör skor katsayısı matrisinin" - hesaplayabileceğim faktör veya bileşen puanlarının - nasıl hesaplandığını anlamama yardımcı olabilir mi? Bu matris üzerinde farklı hesaplama faktörü skorlarının farklı yöntemleri nelerdir?

spss pca factor-analysis

— Kartikeya Pandey
kaynak

Örneğin burada stats.stackexchange.com/a/92512/3277 formülü verilmiştir .

— ttnphns

@amoeba, eğer PCA yaparsa, "faktör skoru" kelimesi "bileşen skoru" anlamına gelir, eşdeğerdir. Yukarıdaki bağlantılı cevabın alt kısmına bakınız - PCA modeli içinde, FA'da faktör puanlarını hesaplamak için en sık kullanılan formül daha sonra kesin (standartlaştırılmış) bileşen puanları üretir.

— 14:38, ttnphns

SPSS,

katsayılarının matrisini görüntüler ve ayrıca (standartlaştırılmış) puanları yeni değişkenler olarak kaydeder ve bunları orijinal

değişkenlerinin veri kümesine ekler . OP - Ben düşünüyorum - standardize

ve ardından multuplied

. Ve işte, SPSS'nin veri kümesine eklediği şey! OP'nin sorusu Vay be! "

nasıl hesaplandı?"

B

$\bf B$

X

$\bf X$

X

$\bf X$

X B

$\bf XB$

B

$\bf B$

— ttnphns

@ttnphs ne demek istediğimi doğru anlıyorsun. Ama benim sorunum, her bir gözlemin faktör topluluğunu tahmin etmek için XB kullanıyorsanız, B'nin faktör yükü olması gerektiğini, ancak SPSS'de "döndürülmüş faktör yükü" yerine "bileşen skor katsayısı matrisi" olduğunu varsayıyordum. "Döndürülmüş faktör yüklemesi" ve "bileşen skor katsayısı matrisi" arasındaki ilişki veya farkı anlamak istedim.

— Kartikeya Pandey

Bu yüzden bağlantıdan anladığım için, sadece bir kez emin olmak istiyorum, eğer A döndürülmüş faktör yükü ise (Ters (A)) 'formül A⋅diag kullanılarak da hesaplanabilen "bileşen skor katsayısı matrisidir". Ters ((özdeğer))

— Kartikeya Pandey

Faktör / bileşen puanlarının hesaplama yöntemleri

Bir dizi yorumdan sonra nihayet bir cevap vermeye karar verdim (yorumlara ve daha fazlasına dayanarak). PCA'daki bileşen puanlarının ve faktör analizinde faktör puanlarının hesaplanması ile ilgilidir.

Faktör / skorlar ile verilir , (analiz edilen değişkenler merkezli PCA / faktör analizi covariances bazlı veya eğer z standart bu korelasyonlara göre ise). , faktör / bileşen puan katsayısı (veya ağırlık) matrisidir . Bu ağırlıklar nasıl tahmin edilebilir? $\bf \hat{F}=XB$ $\bf X$ $\bf B$

Gösterim

Hangi faktör / PCA analiz edildi ise, değişken (madde) korelasyonların veya kovaryansların -matrisi. $\bf R$ p x p

-faktör / bileşen yüklerinin matrisi. Bunlar ekstraksiyondan sonraki yüklemeler (genellikle olarak da belirtilir), bunun üzerine latentler ortogonal veya pratikte öyle olabilir veya rotasyon sonrası ortogonal veya eğik yüklemeler olabilir. Döndürmeeğik ise,desenyüklemeleriolmalıdır. $\bf P$ p x m $\bf A$

-eğik dönüşlerinden sonra (yükler) faktörler / bileşenler arasındaki korelasyon matrisi. Hiçbir rotasyon veya ortogonal rotasyon yapılmadıysa, bukimlikmatrisidir. $\bf C$ m x m

-yeniden korelasyonlar / covariances indirgenmiş matris,(ortogonal çözeltiler için), kendi çapraz üzerinde communalities içerir. $\bf \hat R$ p x p $\bf = PCP'$ $\bf = PP'$

-tekliklerin köşegen matrisi (teklik + komünite = köşegen elemanı). Formüllerde okunabilirlik kolaylığı içinburada üst simge ( )yerine "2" kullanıyorum. $\bf U_2$ p x p $\bf R$ $\bf U^2$

-yeniden korelasyonlar / covariances tam . $\bf R^*$ p x p $\bf = \hat R + U_2$

- bazı matrisinin yalancı tersi; Eğer , tam seviye olduğunu . $\bf M^+$ $\bf M$ $\bf M$ $\bf M^+ = (M'M)^{-1}M'$

- bazı kare simetrik matris için yükselmesi özdeğiştiren , özdeğerleri güce yükseltir ve geri oluşturur: . $\bf M^{power}$ $\bf M$ $power$ $\bf HKH'=M$ $\bf M^{power}=HK^{power}H'$

Kaba hesaplama yöntemi faktör / bileşen puanları

Bazen Cattell denilen bu popüler / geleneksel yaklaşım, aynı faktör tarafından yüklenen öğelerin değerlerinin ortalamasını (veya özetlemesini) sağlar. Matematiksel olarak, bu ağırlık ayar tutarındadır skorları hesaplanmasında . Yaklaşımın üç ana versiyonu vardır: 1) Yükleri oldukları gibi kullanın; 2) Bunları ikiye ayırın (1 = yüklü, 0 = yüklü değil); 3) Yükleri oldukları gibi kullanın ancak sıfır eşikli yükler bir eşik değerden daha küçük olan yükleri kullanın. $\bf B=P$ $\bf \hat{F}=XB$

Genellikle bu yaklaşımla, eşyalar aynı ölçek birimindeyken, değerleri sadece ham kullanılır; ancak faktoring mantığını kırmamak, faktoringe girdiğinde (standartlaştırılmış (= korelasyon analizi) veya ortalanmış (= kovaryans analizi) daha iyi kullanır . $\bf X$ $\bf X$

Benim görüşüme göre faktör / bileşen puanlarını kaba hesaplamanın kaba dezavantajı , yüklenen maddeler arasındaki korelasyonları hesaba katmamasıdır. Bir faktör tarafından yüklenen öğeler birbiriyle sıkı bir şekilde ilişkiliyse ve biri diğerinden daha güçlü yüklüyse, ikincisi makul olarak daha genç bir kopya olarak kabul edilebilir ve ağırlığı azaltılabilir. Rafine yöntemler bunu yapar, ancak kaba yöntem yapamaz.

Kaba skorların hesaplanması elbette kolaydır, çünkü matrisin tersine çevrilmesine gerek yoktur. Kaba yöntemin avantajı (bilgisayar mevcudiyetine rağmen neden hala yaygın olarak kullanıldığını açıklamak), örnekleme ideal olmadığında (temsil ve boyut anlamında) numuneden numuneye daha kararlı puanlar vermesidir. analiz iyi seçilmiş değildi. Bir makaleden alıntı yapmak için, "Toplam puan yöntemi, orijinal verileri toplamak için kullanılan ölçekler test edilmediğinde ve keşfedildiğinde, çok az güvenilirlik veya geçerlilik kanıtı ile veya hiç kanıt olmaksızın istenebilir". Ayrıca , bu faktör analizi modeli gerektiriyorsa olarak, tek değişkenli gizli derinliklerinden olarak mutlaka "faktörü" anlamak gerektirmez ( bkz , bkz). Örneğin, bir faktörü bir fenomen koleksiyonu olarak kavramsallaştırabilirsiniz - o zaman öğe değerlerini toplamak mantıklıdır.

Rafine hesaplama yöntemleri / bileşen puanları

Bu yöntemler faktör analitik paketlerinin yaptığı yöntemdir. çeşitli yöntemlerle tahmin ederler . veya yükleri , değişkenleri faktörlere / bileşenlere göre tahmin etmek için doğrusal kombinasyonların katsayıları iken , , değişkenlerden faktör / bileşen puanlarını hesaplamak için katsayılardır. $\bf B$ $\bf A$ $\bf P$ $\bf B$

ile hesaplanan puanlar ölçeklendirilir: 1'e eşit veya buna yakın varyansları vardır (standartlaştırılmış veya standartlaştırılmış yakın) - gerçek faktör varyansları değil (kare şeklindeki yapı yüklerinin toplamına eşittir, buradaki Dipnot 3'e bakın ). Dolayısıyla, faktör puanlarını gerçek faktörün varyansıyla sağlamanız gerektiğinde, puanları bu varyansın kareköküyle çarpın (bunları st.dev. 1 olarak standardize ederek). $\bf B$

Sen muhafaza edebilirler yeni gelen gözlemler için puanları hesaplamak için muktedir, yapılan analiz . Ayrıca, , ölçek faktör analizinden geliştirildiğinde veya doğrulandığında, bir anket ölçeği oluşturan öğeleri ağırlıklandırmak için kullanılabilir. (Kare) katsayıları , maddelerin faktörlere katkısı olarak yorumlanabilir . Katsayılar regresyon katsayısı standartlaştırılmış gibi standartlaştırılabilir $\bf B$ $\bf X$ $\bf B$ $\bf B$ Farklı varyanslara sahip maddelerin katkılarını karşılaştırmak için (burada). $\beta=b \frac{\sigma_{item}}{\sigma_{factor}}$ $\sigma_{factor}=1$

PCA ve FA'da yapılan ve skor katsayısı matrisindeki skorların hesaplanmasını içeren hesaplamaları gösteren bir örneğe bakınız .

PCA ayarlarındaki 's (dikey koordinatlar olarak) ve skor katsayıları ' nin (eğri koordinatlar) geometrik açıklaması burada ilk iki resimde sunulmaktadır . $a$ $b$

Şimdi rafine yöntemlere.

Metodlar

PCA'da hesaplanması $\bf B$

Bileşen yüklemeleri ekstre edildiğinde, fakat döndürülmediğinde, , burada , öz değerlerden oluşan köşegen matristir ; bu formül, her bir sütununu , bileşenin varyansı olan ilgili özdeğer ile basitçe böler . $\bf B= AL^{-1}$ $\bf L$ m $\bf A$

Eşdeğer olarak, . Bu formül aynı zamanda döndürülmüş, dikey (varimax gibi) veya eğik bileşenler (yükler) için de geçerlidir. $\bf B= (P^+)'$

Faktör analizinde kullanılan bazı yöntemler (aşağıya bakınız), PCA içinde uygulanırsa aynı sonucu verir.

Hesaplanan bileşen puanları varyans 1'e sahiptir ve bileşenlerin gerçek standartlaştırılmış değerleridir .

İstatistiksel veri analizinde ana bileşen katsayı matrisi olarak adlandırılır ve eğer tam ve hiç bir şekilde döndürülmemiş yükleme matrisinden hesaplanırsa, makine öğrenimi literatüründe genellikle (PCA tabanlı) beyazlatma matrisi olarak etiketlenir ve standart ana bileşenler "beyazlatılmış" veri olarak tanınır. $\bf B$ p x p

Hesaplanması ortak faktör analizi $\bf B$

Skorlar farklı olarak, faktör skorları olan tam hiç ; bunlar sadece faktörlerin bilinmeyen gerçek değerleri yaklaştırılmıştır . Bunun nedeni, vaka düzeyinde toplulukların veya tekliklerin değerlerini bilmememizdir - çünkü faktörler, bileşenlerin aksine, manifestlerden ayrı ve bize göre bilinmeyen kendi değişkenlerine sahip dış değişkenlerdir. Bu faktör skorunun belirsizliğinin nedeni budur . Belirsizlik sorununun faktör çözümünün kalitesinden mantıksal olarak bağımsız olduğunu unutmayın: bir faktörün ne kadar doğru olduğu (popülasyonda veri üreten latente karşılık gelir) katılımcıların bir faktörün puanlarının ne kadarının doğru olduğundan (doğru tahminler) çıkarılan faktörün). $\bf F$

Faktör puanları yaklaşık olduğundan, bunları hesaplamak ve rekabet etmek için alternatif yöntemler mevcuttur.

Regresyon veya Thurstone veya Thompson'un faktör skorlarını tahmin etme yöntemi , burada yapı yüklerinin matrisidir (ortogonal faktör çözümleri için olduğunu biliyoruz ). Regresyon yönteminin temeli dipnot . $\bf B=R^{-1} PC = R^{-1} S$ $\bf S=PC$ $\bf A=P=S$ $^1$

Not. için bu formül PCA ile de kullanılabilir: PCA'da, önceki bölümde belirtilen formüllerle aynı sonucu verecektir. $\bf B$

FA'da (PCA değil), regresif olarak hesaplanan faktör puanları oldukça "standartlaşmış" görünmeyecektir - 1 değil, değişkenlere göre bu puanlara gerileme. Bu değer, bir faktörün (gerçek bilinmeyen değerleri) değişkenler tarafından belirlenme derecesi olarak yorumlanabilir - gerçek faktörün kendileri tarafından öngörülmesinin R-karesi ve regresyon yöntemi bunu en üst düzeye çıkarır, - hesaplanan "geçerlilik" puanları. Resimgeometriyi göstermektedir. (Lütfen $\frac {SS_{regr}}{(n-1)}$ $^2$ herhangi bir rafine edilmiş yöntem için puanların varyansına eşit olacaktır, ancak sadece regresyon yöntemi için bu miktar gerçek f'nin tayin oranına eşit olacaktır. değerleri f. puanları.) $\frac {SS_{regr}}{(n-1)}$

Bir şekilde varyant regresyon yöntemi, tek bir kullanabilir yerine formülde. İyi bir faktör analizi gerekçesiyle garantilidir ve birbirine çok benzer. Ancak, olmadığında, özellikle faktör sayısı gerçek nüfus sayısından az olduğunda, yöntem puanlarda güçlü yanlılık üretir. Ve bu "yeniden üretilmiş R regresyonu" yöntemini PCA ile kullanmamalısınız. $\bf R^*$ $\bf R$ $\bf R$ $\bf R^*$ m

PCA'nın Horst (Mulaik) veya ideal (ized) değişken yaklaşımı (Harman) olarak da bilinen yöntemi . Bu regresyon yöntemi yerine Formülündeki. Formülün düştüğü kolayca gösterilebilir (ve bu yüzden evet, aslında onunla bilmemize gerek yoktur ). Faktör puanları, bileşen puanları gibi hesaplanır. $\bf \hat R$ $\bf R$ $\bf B= (P^+)'$ $\bf C$

"Değişken idealize" [Etiket faktörü ya da bileşen göre yana olmasından kaynaklanır modeli değişkenlere ilişkin tahmini bölümüdür , aşağıda belirtildiği , ama yerine bilinmeyeni , tahmin etmek için skorlar ; bu nedenle "idealize ederiz" .] $\bf \hat X = FP'$ $\bf F= (P^+)' \hat X$ $\bf X$ $\bf \hat X$ $\bf F$ $\bf \hat F$ $\bf X$

Lütfen bu yöntemin faktör puanları için PCA bileşen puanlarını geçmediğini unutmayın, çünkü kullanılan yüklemeler PCA yüklemeleri değil faktör analizi ''; sadece puanlar için hesaplama yaklaşımı PCA'da bunu yansıtır.

Bartlett'in yöntemi . Burada . Bu yöntem, her katılımcı için benzersiz ("hata") faktörleri arasındaki değişimi en aza indirmeyi amaçlamaktadır . Ortaya çıkan ortak faktör puanlarının varyansları eşit olmayacak ve 1'i aşabilecektir. $\bf B'=(P'U_2^{-1}P)^{-1} P' U_2^{-1}$ p

Bir önceki modifikasyon olarak Anderson-Rubin yöntemi geliştirilmiştir. . Skorların varyansları tam olarak 1 olacaktır. Bununla birlikte, bu yöntem sadece dik faktörlü çözümler içindir (eğik çözeltiler için hala dik skorlar verecektir). $\bf B'=(P'U_2^{-1}RU_2^{-1}P)^{-1/2} P'U_2^{-1}$

McDonald-Anderson-Rubin yöntemi . McDonald, Anderson-Rubin'i oblik faktör çözümlerine de genişletti. Yani bu daha genel. Ortogonal faktörlerle, aslında Anderson-Rubin'e düşer. Bazı paketler muhtemelen McDonald's yöntemini "Anderson-Rubin" olarak adlandırırken kullanabilir. Formülü şu şekildedir: , ve elde edilir $\bf B= R^{-1/2} GH' C^{1/2}$ $\bf G$ $\bf H$ . (Elbette yalnızca ilksütunlarıkullanın.) $\text{svd} \bf (R^{1/2}U_2^{-1}PC^{1/2}) = G \Delta H'$ m $\bf G$

Green yöntemi . McDonald-Anderson Rubin aynı formül kullanır, ancak ve gibi hesaplanır: . ( Elbette yalnızca ilk sütunları kullanın .) Green'in yöntemi, commulalities (veya benzersizlikler) bilgilerini kullanmaz. Değişkenlerin gerçek toplulukları gittikçe eşit hale geldikçe McDonald-Anderson-Rubin yöntemine yaklaşır ve yaklaşır. PCA yüklemelerine uygulanırsa Green, yerel PCA'nın yöntemi gibi bileşen puanları döndürür. $\bf G$ $\bf H$ $\text{svd} \bf (R^{-1/2}PC^{3/2}) = G \Delta H'$ m $\bf G$

Krijnen ve ark. Yöntemi . Bu yöntem, önceki her ikisini tek bir formülle barındıran bir genellemedir. Muhtemelen yeni veya önemli yeni özellikler eklemiyor, bu yüzden düşünmüyorum.

Rafine yöntemler arasında karşılaştırma .

Regresyon yöntemi, faktör puanları ve bu faktörün bilinmeyen gerçek değerleri arasındaki korelasyonu en üst düzeye çıkarır (yani istatistiksel geçerliliği en üst düzeye çıkarır ), ancak puanlar bir şekilde önyargılıdır ve faktörler arasında bir şekilde yanlış bir şekilde ilişkilidir (örneğin, bir çözümdeki faktörler dikey olduğunda bile ilişkilidir). Bunlar en küçük kareler tahminleridir.
PCA'nın yöntemi de en az karedir, ancak daha az istatistiksel geçerliliği vardır. Hesaplamak daha hızlıdır; günümüzde bilgisayarlar nedeniyle faktör analizinde sıklıkla kullanılmamaktadır. ( PCA'da bu yöntem doğal ve en uygun yöntemdir.)
$\bf X$
Anderson-Rubin / McDonald-Anderson-Rubin ve Green skorlarına korelasyon koruyucusu denir, çünkü diğer faktörlerin faktör skorlarıyla doğru bir şekilde korele olduğu hesaplanmıştır. Faktör skorları arasındaki korelasyonlar, solüsyondaki faktörler arasındaki korelasyonlara eşittir (bu nedenle ortogonal solüsyonda, skorlar mükemmel bir şekilde ilişkisiz olacaktır). Ancak puanlar biraz önyargılıdır ve geçerliliği mütevazı olabilir.

Bu tabloyu da kontrol edin:

[SPSS kullanıcıları için bir not: PCA ("temel bileşenler" çıkarma yöntemi) yapıyorsanız ancak "Regresyon" yöntemi dışında faktör puanları talep ediyorsanız, program isteği dikkate almaz ve bunun yerine "Regresyon" puanlarını hesaplar (tam olarak bileşen puanları).]

Referanslar

Grice, James W. Faktör Skorlarının Hesaplanması ve Değerlendirilmesi // Psychological Methods 2001, Vol. 4, 430-450.
DiStefano, Christine ve diğ. Faktör Skorlarını Anlama ve Kullanma // Pratik Ölçme, Araştırma ve Değerlendirme, Cilt 14, Sayı 20
ten Berge, Jos MFet al. Korelasyon koruyucusu faktör skorları tahmin yöntemlerine ilişkin bazı yeni sonuçlar // Lineer Cebir ve Uygulamaları 289 (1999) 311-318.
Mulaik, Stanley A. Faktör Analizinin Temelleri, 2. Baskı, 2009
Harman, Harry H. Modern Faktör Analizi, 3. Baskı, 1976
Neudecker, Heinz. Faktör skorlarının en iyi afinite nötr kovaryans koruyucu tahmini üzerinde // SIRA 28 (1) Ocak-Haziran 2004, 27-36

$^1$ $F=b_1X_1+b_2X_2$ $s_1$ $s_2$ $F$

$s_1=b_1r_{11}+b_2r_{12}$

$s_2=b_1r_{12}+b_2r_{22}$

$r$ $X$ $\bf s=Rb$ $F$ $b$ $r$ $s$

$^2$

resim açıklamasını buraya girin

— ttnphns
kaynak

Güzel cevap, iptal edildi! Sadece genel olarak istatistik ve özellikle faktör analizi bilginizden etkilendiğimi söylemek istedim. LinkedIn ve diğer sosyal ağlarda sizinle iletişim kurmaktan memnuniyet duyacağız. Bu arada, FYI: profilinizde şirketinizin sitesine bağlantı koptu.

— Aleksandr Blekh

X

$\bf X$

F A

$\bf F \bf A$

F

$\bf F$

R^{- 1} A

$\bf R^{-1} \bf A$

(I + A^{⊤} U^{- 2} A)^{- 1} A^{⊤} U^{- 2}

$(\bf I + \bf A^\top \bf U^{-2} \bf A)^{-1} \bf A^\top \bf U^{-2}$

I

$\bf I$

@ amiba, ilk yorumunuzla ilgili cevaba biraz bilgi ekledim. İkinci yorumunuz için - üzgünüm, sanırım kendimi kitaplara kazmadan cevaplayamıyorum. Cevabı kendiniz bulursanız, lütfen izleyici için açıklığa kavuşturun. :-)

— ttnphns

Şaşırtıcı güncelleme @ttnphns, iyi iş. Bu konunun 13k kez görüntülendiğini fark ettim, bazı popüler google aramalarında üst sıralarda yer alması gerekiyor.

— amip diyor Reinstate Monica

-2

Meteorolojide PCA yapmak için korelasyon katsayıları ya Pearson korelasyon katsayısı kullanılarak elde edilir (değişkenler farklı birimlerdeyse, veriler arasındaki boyut / büyüklük farklılıkları nedeniyle herhangi bir tutarsızlık olmadan doğrudan karşılaştırılabilmeleri için verileri standartlaştırmayı mümkün kıldığından, bu şekilde korelasyon katsayıları, her bir veri kümesi için ve her bir veri kümesi arasındaki ortalamadaki varyansın boyutunu karşılaştırabilir, aksi takdirde tüm veriler aynı birim kullanılarak ölçülürse, kovaryans yöntemini kullanmak mümkündür.

— Ekta
kaynak

Tamamen anlaşılmaz - cevap nasıl bir soru ile ilgilidir (yani bileşen / faktör puanlarının hesaplanması)?

— ttnphns

\underset{n \times p}{Y} = {\underset{p \times p}{E}}^{T} \underset{p \times n}{Z}

$\underset{n\times p}{\bf{Y}} = \underset{p\times p}{\bf{E}}^T \underset{p\times n}{\bf{Z}}$