Faktör / bileşen puanlarının hesaplama yöntemleri
Bir dizi yorumdan sonra nihayet bir cevap vermeye karar verdim (yorumlara ve daha fazlasına dayanarak). PCA'daki bileşen puanlarının ve faktör analizinde faktör puanlarının hesaplanması ile ilgilidir.
Faktör / skorlar ile verilir F = X B , X, (analiz edilen değişkenler merkezli PCA / faktör analizi covariances bazlı veya eğer z standart bu korelasyonlara göre ise). B , faktör / bileşen puan katsayısı (veya ağırlık) matrisidir . Bu ağırlıklar nasıl tahmin edilebilir?F^= X BXB
Gösterim
Hangi faktör / PCA analiz edildi ise, değişken (madde) korelasyonların veya kovaryansların R -matrisi.R,p x p
-faktör / bileşen yüklerinin matrisi. Bunlar ekstraksiyondan sonraki yüklemeler (genellikle A olarak da belirtilir), bunun üzerine latentler ortogonal veya pratikte öyle olabilir veya rotasyon sonrası ortogonal veya eğik yüklemeler olabilir. Döndürmeeğik ise,desenyüklemeleriolmalıdır.Pp x m
bir
-eğik dönüşlerinden sonra (yükler) faktörler / bileşenler arasındaki korelasyon matrisi. Hiçbir rotasyon veya ortogonal rotasyon yapılmadıysa, bukimlikmatrisidir.Cm x m
-yeniden korelasyonlar / covariances indirgenmiş matris,=PCıP'(=PP'ortogonal çözeltiler için), kendi çapraz üzerinde communalities içerir.R,^p x p
=PCP′=PP′
-tekliklerin köşegen matrisi (teklik + komünite = R'nin köşegen elemanı). Formüllerde okunabilirlik kolaylığı içinburada üst simge ( U 2 )yerine "2" kullanıyorum.U2p x p
RU2
-yeniden korelasyonlar / covariances tam matris, = R + U 2 .R∗p x p
=R^+U2
- bazı M matrisinin yalancı tersi; Eğer M , tam seviye olduğunu M + = ( M ' E ) - 1 M ' .M+MMM+=(M′M)−1M′
- bazı kare simetrik matris M için p o w e r'ye yükselmesi özdeğiştiren H K H ′ = M , özdeğerleri güce yükseltir ve geri oluşturur: M p o w e r = H K p o w e r H ′ .MpowerMpowerHKH′=MMpower=HKpowerH′
Kaba hesaplama yöntemi faktör / bileşen puanları
Bazen Cattell denilen bu popüler / geleneksel yaklaşım, aynı faktör tarafından yüklenen öğelerin değerlerinin ortalamasını (veya özetlemesini) sağlar. Matematiksel olarak, bu ağırlık ayar tutarındadır skorları hesaplanmasında F = X, B . Yaklaşımın üç ana versiyonu vardır: 1) Yükleri oldukları gibi kullanın; 2) Bunları ikiye ayırın (1 = yüklü, 0 = yüklü değil); 3) Yükleri oldukları gibi kullanın ancak sıfır eşikli yükler bir eşik değerden daha küçük olan yükleri kullanın.B=PF^=XB
Genellikle bu yaklaşımla, eşyalar aynı ölçek birimindeyken, değerleri sadece ham kullanılır; ancak faktoring mantığını kırmamak, faktoringe girdiğinde (standartlaştırılmış (= korelasyon analizi) veya ortalanmış (= kovaryans analizi) X'i daha iyi kullanır .XX
Benim görüşüme göre faktör / bileşen puanlarını kaba hesaplamanın kaba dezavantajı , yüklenen maddeler arasındaki korelasyonları hesaba katmamasıdır. Bir faktör tarafından yüklenen öğeler birbiriyle sıkı bir şekilde ilişkiliyse ve biri diğerinden daha güçlü yüklüyse, ikincisi makul olarak daha genç bir kopya olarak kabul edilebilir ve ağırlığı azaltılabilir. Rafine yöntemler bunu yapar, ancak kaba yöntem yapamaz.
Kaba skorların hesaplanması elbette kolaydır, çünkü matrisin tersine çevrilmesine gerek yoktur. Kaba yöntemin avantajı (bilgisayar mevcudiyetine rağmen neden hala yaygın olarak kullanıldığını açıklamak), örnekleme ideal olmadığında (temsil ve boyut anlamında) numuneden numuneye daha kararlı puanlar vermesidir. analiz iyi seçilmiş değildi. Bir makaleden alıntı yapmak için, "Toplam puan yöntemi, orijinal verileri toplamak için kullanılan ölçekler test edilmediğinde ve keşfedildiğinde, çok az güvenilirlik veya geçerlilik kanıtı ile veya hiç kanıt olmaksızın istenebilir". Ayrıca , bu faktör analizi modeli gerektiriyorsa olarak, tek değişkenli gizli derinliklerinden olarak mutlaka "faktörü" anlamak gerektirmez ( bkz , bkz). Örneğin, bir faktörü bir fenomen koleksiyonu olarak kavramsallaştırabilirsiniz - o zaman öğe değerlerini toplamak mantıklıdır.
Rafine hesaplama yöntemleri / bileşen puanları
Bu yöntemler faktör analitik paketlerinin yaptığı yöntemdir. çeşitli yöntemlerle tahmin ederler . A veya P yükleri , değişkenleri faktörlere / bileşenlere göre tahmin etmek için doğrusal kombinasyonların katsayıları iken , B , değişkenlerden faktör / bileşen puanlarını hesaplamak için katsayılardır.BAPB
ile hesaplanan puanlar ölçeklendirilir: 1'e eşit veya buna yakın varyansları vardır (standartlaştırılmış veya standartlaştırılmış yakın) - gerçek faktör varyansları değil (kare şeklindeki yapı yüklerinin toplamına eşittir, buradaki Dipnot 3'e bakın ). Dolayısıyla, faktör puanlarını gerçek faktörün varyansıyla sağlamanız gerektiğinde, puanları bu varyansın kareköküyle çarpın (bunları st.dev. 1 olarak standardize ederek).B
Sen muhafaza edebilirler yeni gelen gözlemler için puanları hesaplamak için muktedir, yapılan analiz X . Ayrıca, B , ölçek faktör analizinden geliştirildiğinde veya doğrulandığında, bir anket ölçeği oluşturan öğeleri ağırlıklandırmak için kullanılabilir. (Kare) B katsayıları , maddelerin faktörlere katkısı olarak yorumlanabilir . Katsayılar regresyon katsayısı standartlaştırılmış gibi standartlaştırılabilir β = b σ i t e mBXBBFarklı varyanslara sahip maddelerin katkılarını karşılaştırmak için σ f a c t o r (buradaσfactor=1).β=bσitemσfactorσfactor=1
PCA ve FA'da yapılan ve skor katsayısı matrisindeki skorların hesaplanmasını içeren hesaplamaları gösteren bir örneğe bakınız .
PCA ayarlarındaki 's (dikey koordinatlar olarak) ve skor katsayıları b ' nin (eğri koordinatlar) geometrik açıklaması burada ilk iki resimde sunulmaktadır .ab
Şimdi rafine yöntemlere.
Metodlar
PCA'da hesaplanmasıB
Bileşen yüklemeleri ekstre edildiğinde, fakat döndürülmediğinde, , burada L , öz değerlerden oluşan köşegen matristir ; bu formül, A'nın her bir sütununu , bileşenin varyansı olan ilgili özdeğer ile basitçe böler .B=AL−1Lm
A
Eşdeğer olarak, . Bu formül aynı zamanda döndürülmüş, dikey (varimax gibi) veya eğik bileşenler (yükler) için de geçerlidir.B=(P+)′
Faktör analizinde kullanılan bazı yöntemler (aşağıya bakınız), PCA içinde uygulanırsa aynı sonucu verir.
Hesaplanan bileşen puanları varyans 1'e sahiptir ve bileşenlerin gerçek standartlaştırılmış değerleridir .
İstatistiksel veri analizinde ana bileşen katsayı matrisi olarak adlandırılır ve eğer tam ve hiç bir şekilde döndürülmemiş yükleme matrisinden hesaplanırsa, makine öğrenimi literatüründe genellikle (PCA tabanlı) beyazlatma matrisi olarak etiketlenir ve standart ana bileşenler "beyazlatılmış" veri olarak tanınır.Bp x p
Hesaplanması ortak faktör analiziB
Skorlar farklı olarak, faktör skorları olan tam hiç ; bunlar sadece faktörlerin bilinmeyen gerçek değerleri yaklaştırılmıştır . Bunun nedeni, vaka düzeyinde toplulukların veya tekliklerin değerlerini bilmememizdir - çünkü faktörler, bileşenlerin aksine, manifestlerden ayrı ve bize göre bilinmeyen kendi değişkenlerine sahip dış değişkenlerdir. Bu faktör skorunun belirsizliğinin nedeni budur . Belirsizlik sorununun faktör çözümünün kalitesinden mantıksal olarak bağımsız olduğunu unutmayın: bir faktörün ne kadar doğru olduğu (popülasyonda veri üreten latente karşılık gelir) katılımcıların bir faktörün puanlarının ne kadarının doğru olduğundan (doğru tahminler) çıkarılan faktörün).F
Faktör puanları yaklaşık olduğundan, bunları hesaplamak ve rekabet etmek için alternatif yöntemler mevcuttur.
Regresyon veya Thurstone veya Thompson'un faktör skorlarını tahmin etme yöntemi , burada S = P C yapı yüklerinin matrisidir (ortogonal faktör çözümleri için A = P = S olduğunu biliyoruz ). Regresyon yönteminin temeli dipnot 1'de yer almaktadır .B=R−1PC=R−1SS=PCA=P=S1
Not. için bu formül PCA ile de kullanılabilir: PCA'da, önceki bölümde belirtilen formüllerle aynı sonucu verecektir.B
FA'da (PCA değil), regresif olarak hesaplanan faktör puanları oldukça "standartlaşmış" görünmeyecektir - 1 değil, değişkenlere göre bu puanlara gerileme. Bu değer, bir faktörün (gerçek bilinmeyen değerleri) değişkenler tarafından belirlenme derecesi olarak yorumlanabilir - gerçek faktörün kendileri tarafından öngörülmesinin R-karesi ve regresyon yöntemi bunu en üst düzeye çıkarır, - hesaplanan "geçerlilik" puanları. Resim2geometriyi göstermektedir. (LütfenSS r e g rSSregr(n−1)2 herhangi bir rafine edilmiş yöntem için puanların varyansına eşit olacaktır, ancak sadece regresyon yöntemi için bu miktar gerçek f'nin tayin oranına eşit olacaktır. değerleri f. puanları.)SSregr(n−1)
Bir şekilde varyant regresyon yöntemi, tek bir kullanabilir yerine R formülde. İyi bir faktör analizi gerekçesiyle garantilidir R ve R * birbirine çok benzer. Ancak, olmadığında, özellikle faktör sayısı gerçek nüfus sayısından az olduğunda, yöntem puanlarda güçlü yanlılık üretir. Ve bu "yeniden üretilmiş R regresyonu" yöntemini PCA ile kullanmamalısınız.R∗RRR∗m
PCA'nın Horst (Mulaik) veya ideal (ized) değişken yaklaşımı (Harman) olarak da bilinen yöntemi . Bu regresyon yöntemi R yerine R Formülündeki. Formülün B = ( P + ) ′'ya düştüğü kolayca gösterilebilir (ve bu yüzden evet, aslında onunla C'yi bilmemize gerek yoktur ). Faktör puanları, bileşen puanları gibi hesaplanır.R^RB=(P+)′C
"Değişken idealize" [Etiket faktörü ya da bileşen göre yana olmasından kaynaklanır modeli değişkenlere ilişkin tahmini bölümüdür X = F P ' , aşağıda belirtildiği F = ( p + ) ' X , ama yerine X bilinmeyeni (ideal) X , tahmin etmek için F skorlar F ; bu nedenle X'i "idealize ederiz" .]X^=FP′F=(P+)′X^XX^FF^X
Lütfen bu yöntemin faktör puanları için PCA bileşen puanlarını geçmediğini unutmayın, çünkü kullanılan yüklemeler PCA yüklemeleri değil faktör analizi ''; sadece puanlar için hesaplama yaklaşımı PCA'da bunu yansıtır.
Bartlett'in yöntemi . Burada . Bu yöntem, her katılımcı için benzersiz ("hata") faktörleri arasındaki değişimi en aza indirmeyi amaçlamaktadır . Ortaya çıkan ortak faktör puanlarının varyansları eşit olmayacak ve 1'i aşabilecektir.B′=(P′U−12P)−1P′U−12p
Bir önceki modifikasyon olarak Anderson-Rubin yöntemi geliştirilmiştir. . Skorların varyansları tam olarak 1 olacaktır. Bununla birlikte, bu yöntem sadece dik faktörlü çözümler içindir (eğik çözeltiler için hala dik skorlar verecektir).B′=(P′U−12RU−12P)−1/2P′U−12
McDonald-Anderson-Rubin yöntemi . McDonald, Anderson-Rubin'i oblik faktör çözümlerine de genişletti. Yani bu daha genel. Ortogonal faktörlerle, aslında Anderson-Rubin'e düşer. Bazı paketler muhtemelen McDonald's yöntemini "Anderson-Rubin" olarak adlandırırken kullanabilir. Formülü şu şekildedir: , G ve H elde edilir svd ( R 1 / 2 U - 1 2 P Cı 1 / 2 )B=R−1/2GH′C1/2GH . (Elbette G'deki yalnızca ilksütunlarıkullanın.)svd(R1/2U−12PC1/2)=GΔH′m
G
Green yöntemi . McDonald-Anderson Rubin aynı formül kullanır, ancak ve H gibi hesaplanır: svd ( R, - 1 / 2 P Cı 3 / 2 ) = G Δ * H ' . ( Elbette G'de yalnızca ilk sütunları kullanın .) Green'in yöntemi, commulalities (veya benzersizlikler) bilgilerini kullanmaz. Değişkenlerin gerçek toplulukları gittikçe eşit hale geldikçe McDonald-Anderson-Rubin yöntemine yaklaşır ve yaklaşır. PCA yüklemelerine uygulanırsa Green, yerel PCA'nın yöntemi gibi bileşen puanları döndürür.GHsvd(R−1/2PC3/2)=GΔH′m
G
Krijnen ve ark. Yöntemi . Bu yöntem, önceki her ikisini tek bir formülle barındıran bir genellemedir. Muhtemelen yeni veya önemli yeni özellikler eklemiyor, bu yüzden düşünmüyorum.
Rafine yöntemler arasında karşılaştırma .
Regresyon yöntemi, faktör puanları ve bu faktörün bilinmeyen gerçek değerleri arasındaki korelasyonu en üst düzeye çıkarır (yani istatistiksel geçerliliği en üst düzeye çıkarır ), ancak puanlar bir şekilde önyargılıdır ve faktörler arasında bir şekilde yanlış bir şekilde ilişkilidir (örneğin, bir çözümdeki faktörler dikey olduğunda bile ilişkilidir). Bunlar en küçük kareler tahminleridir.
PCA'nın yöntemi de en az karedir, ancak daha az istatistiksel geçerliliği vardır. Hesaplamak daha hızlıdır; günümüzde bilgisayarlar nedeniyle faktör analizinde sıklıkla kullanılmamaktadır. ( PCA'da bu yöntem doğal ve en uygun yöntemdir.)
X
Anderson-Rubin / McDonald-Anderson-Rubin ve Green skorlarına korelasyon koruyucusu denir, çünkü diğer faktörlerin faktör skorlarıyla doğru bir şekilde korele olduğu hesaplanmıştır. Faktör skorları arasındaki korelasyonlar, solüsyondaki faktörler arasındaki korelasyonlara eşittir (bu nedenle ortogonal solüsyonda, skorlar mükemmel bir şekilde ilişkisiz olacaktır). Ancak puanlar biraz önyargılıdır ve geçerliliği mütevazı olabilir.
Bu tabloyu da kontrol edin:
[SPSS kullanıcıları için bir not: PCA ("temel bileşenler" çıkarma yöntemi) yapıyorsanız ancak "Regresyon" yöntemi dışında faktör puanları talep ediyorsanız, program isteği dikkate almaz ve bunun yerine "Regresyon" puanlarını hesaplar (tam olarak bileşen puanları).]
Referanslar
Grice, James W. Faktör Skorlarının Hesaplanması ve Değerlendirilmesi // Psychological Methods 2001, Vol. 4, 430-450.
DiStefano, Christine ve diğ. Faktör Skorlarını Anlama ve Kullanma // Pratik Ölçme, Araştırma ve Değerlendirme, Cilt 14, Sayı 20
ten Berge, Jos MFet al. Korelasyon koruyucusu faktör skorları tahmin yöntemlerine ilişkin bazı yeni sonuçlar // Lineer Cebir ve Uygulamaları 289 (1999) 311-318.
Mulaik, Stanley A. Faktör Analizinin Temelleri, 2. Baskı, 2009
Harman, Harry H. Modern Faktör Analizi, 3. Baskı, 1976
Neudecker, Heinz. Faktör skorlarının en iyi afinite nötr kovaryans koruyucu tahmini üzerinde // SIRA 28 (1) Ocak-Haziran 2004, 27-36
1F=b1X1+b2X2s1s2F
s1=b1r11+b2r12
s2=b1r12+b2r22
rXs=RbFbrs
2