EFA yerine PCA kullanmak için iyi bir neden var mı? Ayrıca, PCA faktör analizi için bir yedek olabilir mi?


73

Bazı disiplinlerde, PCA (temel bileşen analizi) sistematik olarak herhangi bir gerekçe gösterilmeden kullanılır ve PCA ve EFA (araştırma faktörü analizi) eş anlamlı olarak kabul edilir.

Bu nedenle yakın zamanda bir ölçek doğrulama çalışmasının sonuçlarını analiz etmek için PCA'yı kullandım (her biri 7 maddeden 3 faktör oluşturduğu varsayılan 7 maddelik Likert ölçeğinde 21 madde) ve bir gözden geçiren de EFA yerine neden PCA'yı seçtiğimi sordu. Her iki teknik arasındaki farklılıkları okudum ve buradaki cevaplarınızın çoğunda EFA'nın PCA'ya karşı tercih edildiği görülüyor.

PCA'nın neden daha iyi bir seçim olacağına dair herhangi bir iyi nedeniniz var mı? Ne gibi yararlar sağlayabilir ve neden benim durumumda akıllıca bir seçim olabilir?


1
Harika soru Ttnphns'ın cevabına katılmıyorum ve bugün daha sonra alternatif bir görüş sunmaya çalışacağım.
amip

5
@ amoeba Sizin için önceden kök salıyorum. PCA sadece (bazen, çok) yardımcı olabilecek bir dönüşüm tekniğidir. Onu şeytanlaştırmaya ya da sahte ya da uygunsuz niyete atfetmeye gerek yoktur. Bir logaritmayı yüceltebilirsiniz.
Nick Cox

4
Öyle görünüyor ki ttnn 'ın cevabı PCA'yı şeytanlaştırıyor. Bana göre sadece PCA'nın verilerinizi üreten gizli değişkenlerin varsayımına dayanmadığını iddia ediyor gibi görünüyor, bu yüzden eğer yapmaya çalışıyorsanız, FA daha iyi bir seçimdir.
gung

1
Şimdi, özellikle ttph'lerin cevabına yorum yapmıyordum, ama yorum ve eleştiriler üzerine, PCA'nın asla amaçlanmadığı veya uygun olmadığı bir şey yapmadığı suçlamaları ile ilgili olarak ne sıklıkta karşılaşıyorum.
Nick Cox

3
@NeilG: PCA olduğunu değil bir gürültü terimi içermez ve bu yüzden onunla ilişkili hiçbir olasılığı olduğundan, bir [olasılık] üretken modeli. Olumlu bir genelleme olsa da (PPCA) ve PCA ile çok yakından ilgili, cevabımı burada gör.
amip

Yanıtlar:


95

Feragatname: @ttnphns, hem PCA hem de FA hakkında çok bilgili ve görüşüne saygı duyuyorum ve konuyla ilgili birçok cevabından çok şey öğrendim. Bununla birlikte, buradaki cevabına ve buradaki CV hakkındaki diğer (sayısız) yayınlara katılmıyorum; veya daha doğrusu, onların uygulanabilirliği sınırlı olduğunu düşünüyorum.


PCA ve FA arasındaki farkın fazla olduğunu düşünüyorum.

Şuna bakın: Her iki yöntem de belirli bir kovaryans (veya korelasyon) matrisinin düşük dereceli bir yaklaşımını sağlamaya çalışır. "Düşük rütbe", yalnızca sınırlı (düşük) bir dizi gizli faktörün veya ana bileşenlerin kullanıldığı anlamına gelir. Eğer veri kovaryans matrisi olan , daha sonra modelleri:Cn×nC

PCA:CWWPPCA:CWW+σ2IFA:CWW+Ψ

Burada , sütunlu bir matristir ( genellikle küçük bir sayı olarak seçilir, ), ana bileşenleri veya faktörleri temsil eder , bir kimlik matrisidir ve bir köşegendir matris. Her bir yöntem, sol ve sağ taraflar arasındaki [norm] farkını en aza indiren (ve geri kalanı) bulma şeklinde formüle edilebilir .Wkkk<nkIΨW

PPCA olasılıksal PCA anlamına gelir ve bunun ne olduğunu bilmiyorsanız, şimdilik pek bir önemi yoktur. Bahsetmek istedim, çünkü PCA ile FA arasında düzgün bir şekilde uyuyor, ara model karmaşıklığına sahip. Ayrıca PCA ve FA arasındaki iddia edilen büyük farkı perspektife koyar: olasılıksal bir model olmasına rağmen (aynen FA gibi), aslında PCA'ya neredeyse eşdeğer olduğu ortaya çıkar ( aynı alt alanı kaplar).W

En önemlisi, modellerin yalnızca köşegenine nasıl davrandıklarına göre değiştiğini unutmayın . boyutluluk arttıkça, köşegen daha az ve daha az önemli hale gelir (çünkü köşegen üzerinde sadece elementler ve köşegen üzerindeki elemanlar vardır). Sonuç olarak, büyük için PCA ile FA arasında hiçbir fark yoktur, nadiren takdir edilir. Küçük onlar gerçekten çok farklı olabilir.Cnnn(n1)/2=O(n2)nn

Şimdi, bazı disiplinlerdeki kişilerin neden PCA'yı tercih ettikleri konusunda ana sorunuzu yanıtlamak için. Sanırım matematiksel olarak FA'den çok daha kolay olduğu gerçeğinden kaynaklanıyor (bu yukarıdaki formüllerden açıkça anlaşılmıyor, bu yüzden burada bana inanmak zorundasınız):

  1. PCA - sadece biraz farklı olan PPCA'nın yanı sıra - analitik bir çözümü var, FA ise yok. Bu yüzden, FA'ın sayısal olarak uygun olması gerekir, bunun için çeşitli algoritmalar vardır, muhtemelen farklı cevaplar verir ve farklı varsayımlar altında vb. Çalışırlar. Bazı durumlarda bazı algoritmalar sıkışabilir (örneğin "heywood vakaları"). PCA için bir öz ayrışma gerçekleştirirsiniz ve bitirdiniz; FA çok daha dağınık.

    Teknik olarak, PCA değişkenleri basitçe döndürür ve bu nedenle @NickCox yukarıdaki yorumunda olduğu gibi basit bir dönüşüm olarak adlandırılabilir.

  2. PCA çözüm bağlı değildir : İlk üç PC'ler (bulabilirsiniz Başlangıçta ayarladığınız takdirde bulacağını) ve bu ilk iki aynıları olacak . Bu FA için doğru değildir: için olan çözüm mutlaka için olan çözümün içinde bulunmaz . Bu, sezgisel ve kafa karıştırıcıdır.kk=3k=2k=2k=3

Elbette FA, PCA'dan daha esnek bir modeldir (sonuçta daha fazla parametreye sahiptir) ve genellikle daha faydalı olabilir. Buna karşı tartışmıyorum. Ne am karşı savunarak onlar kavramsal olarak PCA "verilerini açıklayan" ve FA "gizli değişkenleri bulma" konusunda olma konusunda olmak çok farklı bir iddiadır. Sadece bunun neredeyse [neredeyse] doğru olduğunu görmüyorum.

Yukarıda belirtilen bazı özel noktalar ve bağlantılı cevaplar hakkında yorum yapmak için:

  • "PCA’da çıkarılacak / tutulacak boyutların sayısı temelde özneldir, EFA’da ise sayı sabittir ve genellikle birkaç çözümü kontrol etmeniz gerekir" - pekala, çözümün seçimi hala özneldir, bu yüzden Burada herhangi bir kavramsal farkı görmek. Her iki durumda da, model uyumu ve model karmaşıklığı arasındaki dengeyi optimize etmek için (öznel veya nesnel olarak) seçilir.k

  • “FA çift yönlü korelasyonları açıklayabilir (kovaryanslar). PCA genellikle bunu yapamaz” - aslında değil, ikisi de korelasyonları büyüdükçe daha iyi ve daha iyi açıklar .k

  • Bazen PCA ve FA kullanan disiplinlerdeki farklı uygulamalar nedeniyle ek karışıklık ortaya çıkar (ancak @ ttnphns'ın cevaplarında değil!) . Örneğin, yorumlanabilirliği geliştirmek için FA'deki faktörleri döndürmek yaygın bir uygulamadır. Bu nadiren PCA'dan sonra yapılır, ancak prensipte hiçbir şey onu önleyemez. Bu yüzden insanlar genellikle FA'nin size "yorumlanabilir" bir şey verdiğini ve PCA'nın vermediğini düşünme eğilimindedir, ancak bu genellikle bir yanılsamadır.

Son olarak, çok küçük için PCA ve FA arasındaki farkların gerçekten çok büyük olabileceğini ve belki de FA lehine olan bazı iddiaların küçük akılda tutulduğunu vurgulayayım. Ekstrem bir örnek olarak, için tek bir faktör korelasyonu her zaman mükemmel bir şekilde açıklayabilir, ancak bir PC oldukça kötü bir şekilde yapamaz.nnn=2


Güncelleme 1: verinin üretici modelleri

Söylediklerimin tartışmalı olarak alındığını yorum sayısından görebilirsiniz. Yorum bölümünü daha da su basması riski altında, burada "modeller" ile ilgili bazı açıklamalar bulunmaktadır (@ttnphns ve @gung tarafından yapılan yorumlara bakınız). @ ttnphns, yukarıdaki yaklaşımlara atıfta bulunmak için " kovaryans matrisinin " modeli "kelimesini kullanmamdan hoşlanmaz ; bu bir terminoloji meselesidir, ancak “modeller” dediği şey , verilerin olasılıksal / üretici modelleridir :

PPCA:x=Wz+μ+ϵ,ϵN(0,σ2I)FA:x=Wz+μ+ϵ,ϵN(0,Ψ)

PCA'nın olasılıksal bir model olmadığını ve bu şekilde formüle edilemediğini unutmayın.

PPCA ve FA arasındaki fark gürültü terimindedir: PPCA , her değişken için aynı gürültü varyansını kabul ederken, FA, farklı değişkenler varsa varsaymaktadır ("benzersizlikler"). Bu küçük farkın önemli sonuçları vardır. Her iki model de genel beklenti maksimizasyon algoritmasına uygun olabilir. FA için hiçbir analitik çözüm bilinmemektedir, ancak PPCA için biri analitik olarak EM'nin bir araya geleceği çözümü türetebilir (hem hem de ). Çıkıyor, aynı yönde, ancak sistem, PCA yüklemelerde daha küçük bir uzunluğu ile sütun bulunmaktadır (tam formüller atın). Bu nedenle PPCA'yı “neredeyse” PCA olarak düşünüyorum:σ2Ψiiσ2WWPPCAWPCAW her iki durumda da aynı "asıl alt alanı" kapsar.

Kanıt ( Tipping and Bishop 1999 ) biraz tekniktir; Homojen ses değişkeni çok daha basit çözümü gerektirmektedir niçin sezgisel nedeni olduğunu aynı özvektörler sahiptir arasında herhangi bir değere göre , ancak bunun için doğru değildir .Cσ2ICσ2CΨ

Bu yüzden evet, @gung ve @ttnph'lar FA'nin üretken bir modele dayandığı ve PCA'nın olmadığı konusunda haklı, ancak PPCA'nın da üretken bir modele dayandığını, ancak PCA'ya "neredeyse" eşdeğer olduğunu eklemenin önemli olduğunu düşünüyorum. . O zaman çok önemli bir fark gibi görünmüyor.


Güncelleme 2: PCA, kovaryans matrisine, maksimum varyansı aradığı iyi bilindiğinde nasıl en iyi yaklaşımı sağlar?

PCA iki eşdeğer formülasyona sahiptir: örneğin, ilk PC (a) projeksiyonun varyansını maksimize eden ve (b) minimum yeniden yapılandırma hatası veren. Daha soyut olarak, varyansı maksimize etmek ve rekonstrüksiyon hatasını minimuma indirmek arasındaki denklik Eckart-Young teoremi kullanılarak görülebilir .

Eğer veri matrisi (sütun olarak satır, değişken olarak gözlemler, ve sütunlar merkezli olduğu varsayılmaktadır) ve SVD ayrışma o zaman, sütunlarının , dağılım matrisinin özvektörleri olduğu (veya gözlemlerin sayısına bölünürse kovaryans matrisi) ve böylece varyansı maksimize eden eksenlerdir (yani ana eksenler). Ancak Eckart-Young teoreminden birinci PC'ler iyi rank- sağlayan yaklaşımı için :XX=USVVC=XX=VS2VkkXXk=UkSkVk(bu gösterim sadece en büyük tekil değerleri / vektörleri almak anlamına gelir ) değerini en aza indirir .kXXk2

İlk PC'ler sadece en rank- sağlayan yaklaşma , aynı zamanda kovaryans matrisi . Gerçekten de, ve son denklem SVD ayrışmasını sağlar (çünkü ortogonaldır) ve köşegendir). Yani Eckert-Young teoremi iyi rank- söyler yaklaşma verilir . Bu fark ederek dönüştürülebilirkkXCC=XX=VS2VCVS2kCCk=VkSk2VkW=VS PCA ve bu nedenle

Ck=VkSk2Vk=(VS)k(VS)k=WkWk.

Buradaki sonuç başında belirtildiği gibi.

minimizing{CWW2CWWσ2I2CWWΨ2}leadsto{PCAPPCAFA}loadings,

Güncelleme 3: olduğunda PCA FA'ye sayısal olarak gösterilmesin

@ Tnphns tarafından, boyutsallık arttıkça, PCA çözümünün FA çözümüne yaklaştığını iddia ettiğimin sayısal bir gösterimini yapmak için teşvik edildim. İşte gidiyor.

Bazı güçlü off-diyagonal korelasyonları olan rasgele korelasyon matrisi oluşturdum. Daha sonra boyutluluğun etkisini araştırmak için değişkenli bu matrisin sol üst kare bloğu aldım . Her , PCA ve FA'yi bileşen / faktör sayısı olan sayılarla yaptım ve her için köşegen olmayan rekonstrüksiyon hatası hesapladım (köşegen üzerinde FA nedeniyle kusursuz şekilde yeniden yapıldığını unutmayın.200×200 n×nCn=25,50,200nk=15k

ij[CWW]ij2
CΨPCA ise; ama köşegen burada yoksayılır). Sonra her ve , PCA off-diyagonal hatanın FA off-diyagonal hataya oranını hesapladım. Bu oran , çünkü FA mümkün olan en iyi yeniden yapılanmayı sağlar.nk1

PCA vs FA diyagonal rekonstrüksiyon hatası

Sağda, farklı çizgiler, farklı değerlerine karşılık gelen ve yatay eksende gösterilmiştir. Not olarak (hepsi için oranlarını büyür ) yaklaşımı PCA FA yaklaşık olarak aynı yükleri PCA verim, yani FA. Nispeten küçük , örneğin olduğunda , PCA [beklenen] daha kötü performans gösterir, ancak fark küçük için o kadar güçlü değildir ve için bile oran altındadır .knnk1nn=25kk=51.2

faktörü sayısı değişken sayısı ile karşılaştırılabilir olduğunda, oran büyük olabilir . Yukarıda ve ile verdiğim örnekte , FA rekonstrüksiyon hatası elde ederken PCA bunu yapmıyor, yani oran sonsuz olacak. Fakat asıl soruya geri dönersek, ve , PCA köşegen-dışı bölümünü açıklamakta sadece FA'ye kaybeder .knn=2k=10n=21k=3C

Gerçek bir veri kümesine ( değerinde şarap veri kümesi) uygulanan PCA ve FA'nin örnek bir örneği için cevaplarıma bakınız:n=13


2
Teknikler arasındaki matematiksel fark hakkında bir soru sormak üzereydim , çünkü bu konudaki (aksi halde mükemmel) cevapların çoğu açık matematiksel karşılaştırmalar yapmıyor. Bu cevap tam olarak aradığım şeydi.
shadowtalker 7:14

2
Bu, yeni bakış açısına sahip, son derece değerli, açılmamış bir hesaptır. PPCA'yı bir teknik arasına koymak çok önemlidir - fikrinizin büyüdüğü yerden. Sizden PPCA hakkında daha fazla satır bırakmanızı isteyebilir miyim? - Ne de (kısaca) ve ne farklı kılan tahmin nasıl, (faktörlerin aksine) PPCs değişkenlerin altuzayda doldurup bir PPC bağlı değildir, böylece . σ2Ψk
ttnphns

3
Burada w / ttnphns ve FA'nin gizli değişkenlere dayandığı farklılığı kabul ediyorum, oysa PCA sadece verilerin bir dönüşümü. Ancak, bu çok iyi bir gerekçeye sahip ve faydalı bir aykırı pozisyondur. Bu konunun kalitesine katkıda bulunur. +1
gung

5
@ amoeba CEVAPINIZ BÜYÜK. Çok açık ve memnuniyet verici. Vizyonunu paylaştığın için teşekkürler.
Subhash C. Davar,

2
@ user795305 Özür dilerim, cevaplamayı unuttum. Güncelleme 1'de yazılmış FA modeli doğru. Gizli gerçekten de ve bağımsız olmalıydı . ve için ML çözümü gerçekten de Güncelleme 2'de yazdığım gibi normunu en aza ; özensiz ve yanlıştı. Düzeltmeliyim, teşekkürler. Ancak, ML çözümünün, ; sadece buradaki kayıp fonksiyonu, farkın normu değil, daha karmaşık bir ifadedir ( verilme olasılığı ). zN(0,I)ϵWΨCWWΨCWW+ΨCWW+Ψ
amip

27

Dediğiniz gibi, ilgili cevapları bilirsiniz ; ayrıca bakınız : So, as long as "Factor analysis..."+ birkaç son paragraf; ve burada alt liste . Kısacası, PCA çoğunlukla bir veri azaltma tekniği iken, FA gizli özelliklerin modellenmesidir. Bazen benzer sonuçlar verirler; Fakat sizin durumunuzda - muhtemelen gizli özellikleri inşa etmek / doğrulamak gibi hissediyorsunuz çünkü gerçek varlıklar - FA kullanmak daha dürüst olacak ve sonuçlarının yakınlaşması umuduyla PCA'yı tercih etmemelisiniz. Öte yandan, verileri özetlemek / basitleştirmek istediğinizde - daha sonraki analizlerde, örneğin - verilere herhangi bir güçlü model getirmediğinden PCA'yı tercih edersiniz.

Başka bir yol yinelemek için, PCA size boyutlarını verir olabilir bazı uygun subjektif anlamlı EFA ederken, dilerseniz yapılara pozlar olanlar bile olduğunu aslında oluşturulan gizli özellikler verilerinizi ve bu özellikleri bulmayı amaçlamaktadır. FA'de, boyutların (faktörlerin) yorumlanması beklemededir - gizli bir değişkene anlam ekleyip eklememediğiniz, "var" (FA esastır), aksi halde modelden düşürmelisiniz veya destekleyecek daha fazla veri almalısınız. o. PCA'da bir boyutun anlamı isteğe bağlıdır.

Ve yine bir kez daha başka bir deyişle: Eğer ayıklamak zaman m faktörlerini (hatalar ayrı faktörler), değişkenler nasıl olsa hatalar aracılığı ilişkilendirmek için odadan hiç böylece bu birkaç faktör, değişkenler arasında (neredeyse) tüm korelasyon açıklar. Bu nedenle, "faktörler" ilişkili verileri oluşturan / bağlayan gizli özellikler olarak tanımlandığı sürece, yorumlamak için tam ipucuna sahipsiniz - korelasyonlardan neyin sorumlu olduğunu. PCA'da ( "faktörler" gibi bileşenleri çıkartın ), hatalar (belki de) değişkenler arasında ilişki kurar; Böylece , bu şekilde yorumlanacak kadar temiz ve ayrıntılı bir şey çıkardığınızı iddia edemezsiniz .

PCA'nın geçerli bir yerine geçip geçmediği konusunda bazı teorik ve simülasyon deney detayları için, şimdiki tartışmada diğer uzun cevaplarımı okumak isteyebilirsiniz . Lütfen bu konuya verilen @amoeba tarafından verilen olağanüstü cevaplara da dikkat edin.


Upd : Bu sorunun cevabında @amoeba, orada muhalif olan, PCA ile FA arasında yarıya kadar ayakta durmak üzere (iyi bilinen bir olmayan) bir PPCA tekniği tanıttı. Bu, PCA ve FA'in zıttan ziyade bir satır boyunca olduğu mantığını doğal olarak başlattı. Bu değerli yaklaşım kişinin teorik ufkunu genişletir. Ancak, bu FA ile ilgili önemli pratik farklılığı maskeleyebilir, bütün çiftli kovaryansları birkaç faktörle yeniden yapılandırır (açıklar), PCA bunu başarılı bir şekilde yapamaz (ve bazen de bunu yaptığında - bunun nedeni FA'yi taklit ettiği içindir).


Cevabınız için teşekkürler! FA sonuçları aslında çoğunlukla PCA ile elde edilen sonuçlarla birleşiyor. Tek şey: ilk çalışmanın yazarları (benimki bir çeviri + doğrulama) bir PCA analizi kullandılar. Bu, PCA analizini makalemde tutmak ve belki de FA sonuçlarının yakınlaştığını açıklayan bir cümle eklemek için yeterli mi, yoksa PCA'yı FA ile değiştirmeli miyim? Gözden geçirenin aslında açıkça bunu yapmamızı istemediğini, sadece FA yerine neden bir PCA seçtiğimizi haklı çıkarmaya çalıştığını unutmayın.
Carine

Bence: eğer yazarlar PCA kullanıyorsa, ancak daha katı / dürüst bir yaklaşım EFA'yı kendi durumlarına çağırıyorsa, bir eleştiri satırı bırakmalı ve ardından sonuçları karşılaştırmak için PCA veya PCA ile EFA gerçekleştirmelisiniz.
ttnphns

2
Ayrıca, PCA’da çıkarılacak / tutulacak boyut sayısının temelde öznel olduğu farkına dikkat edin, EFA’da bu sayı sabit, ve genellikle bunların nasıl bir dereceye kadar olduğu gibi 3 çözümü, örneğin 3 ila 5 faktör kontrol etmek zorundasınız. Korelasyon matrisini ve ne kadar iyi yorumlandıklarını yeniden üretirler. FA daha sıkıcı, bu yüzden insanlar bir dizi EFA'nın denenmesi için vicdani bir yaklaşımın çağrıldığı durumlarda PCA yapmayı tercih ediyorlar.
ttnphns

Ayrıca Wikipedia girişine bakın: en.wikipedia.org/wiki/…
RobertF

15

Bu Cevabıma (ikinci ve ek olarak diğer burada benim) Ben resim göstermek için çalışacağız PCA (- maksimize - varyansı optimal o geri oysa) Herhangi kuyu bir kovaryansını geri yüklemez.

PCA veya Faktör analizine verdiğim cevapların çoğunda olduğu gibi, konu alanındaki değişkenlerin vektör gösterimini kullanacağım . Bu durumda değişkenleri ve bileşen yüklerini gösteren bir yükleme grafiğidir . Yani elimizdeki ve , (biz sadece iki veri kümesindeki vardı) değişkenleri yüklemeleri ile, onların 1 ana bileşeni ve . Değişkenler arasındaki açı da işaretlenmiştir. Değişkenler ön merkezli, bu nedenle bunların kare uzunluğu, ve , kendi varyanslar.X1X2Fa1a2h12h22

görüntü tanımını buraya girin

ve arasındaki kovaryans - skaler - (bu kosinüs, bu arada korelasyon değeridir). PCA'nın yüklemeler, tabii ki, genel olarak varyans mümkün olan en yüksek yakalama ile , bileşen 'varyans.X1X2h1h2cosϕh12+h22a12+a22F

Şimdi, kovaryans , burada değişken izdüşümüdür değişken ile (ikinci birinci gerilemesi öngörü çıkıntı). Ve böylece kovaryansın büyüklüğü, aşağıdaki dikdörtgenin alanı tarafından oluşturulabilir (yanları ve ).h1h2cosϕ=g1h2g1X1X2g1h2

görüntü tanımını buraya girin

"Faktör teoremi" olarak adlandırılana göre (faktör analizinde bir şey okuyup okumayacağınızı bilebilir), değişkenler arasındaki kovaryans (lar) (tam olarak değilse, yakından) çıkarılan gizli değişken (ler) in yüklerinin çarpımı ile çoğaltılmalıdır. okundu ). Bu, özel durumumuzda (ana bileşenin gizli değişkenimiz olduğunu kabul edersek) olur. Çoğaltılamaz kovaryans Bu değer yanları olan bir dikdörtgenin alanı tarafından işlenen olabilir ve . Karşılaştırma yapmak için önceki dikdörtgenin hizaladığı dikdörtgeni çizelim. Bu dikdörtgen aşağıda çizili olarak gösterilmiştir ve alanı takma cov * (çoğaltılmış cov ) olarak adlandırılmıştır.a1a2a1a2

görüntü tanımını buraya girin

İki alanın oldukça benzer olduğu açıktır, bizim örneğimizde cov * oldukça büyüktür. Kovaryans , 1. ana bileşen olan yükleriyle fazla tahmin edildi . Bu, PCA'nın mümkün olan iki bileşenin sadece 1. bileşeni tarafından kovaryansın gözlenen değerini geri kazanmasını bekleyebilecek birine aykırıdır.F

Üremeyi geliştirmek için arsamıza ne yapabiliriz? Örneğin, ışınını ile üst üste gelene kadar saat yönünde biraz . Çizgileri çakıştığında, bu gizli değişkenimiz olmaya zorladığımız anlamına gelir . Daha sonra yükleme (projeksiyonu üzerinde) olacaktır ve yükleme (projeksiyonu üzerinde) olacak . Daha sonra iki dikdörtgen aynıdır - kov olarak etiketlenmiştir , ve böylece kovaryans mükemmel şekilde yeniden üretilir. Ancak, yeni "gizli değişken" tarafından açıklanan varyans olan ,FX2X2a2X2h2a1X1g1g12+h22a12+a22 , eski gizli değişken, 1. temel bileşen tarafından açıklanan varyans (karşılaştırmak için resimdeki iki dikdörtgenin her birinin kenarlarını kare ve istifleyin). Kovaryansı yeniden üretmeyi başardık, ancak varyans miktarını açıklama pahasına. Yani birinci ana bileşen yerine başka bir gizli eksen seçerek.

Hayal gücümüz veya tahminimiz (matematikle ispat edemem ve muhtemelen kanıtlayamam, matematikçi değilim), eğer gizli ekseni ve tarafından tanımlanan alandan uçağa , uçağın sallanmasına izin verebiliriz. biraz bize doğru, bazı optimal pozisyonlar bulabiliriz - şunu söyleyin, diyelim, - burada kovaryans, ortaya çıkan yüklemeler ( ) tarafından tekrar ortaya ( ) ortaya çıkan yükler tarafından mükemmel bir şekilde yeniden üretilir. ) daha büyük olacak gibi büyük olmasa da, ana bileşen .X1X2Fa1a2a12+a22g12+h22a12+a22F

Bu durum inanıyoruz olan gizli eksen zaman, özellikle bu durumda, elde , iki türetilmiş dik düzlemin "kaput", bir eksen ihtiva eden çekme gibi bir şekilde düzleminden dışarı uzanan çekilir ve ekseni ve içeren diğeri . Sonra bu gizli eksene ortak faktör diyeceğiz ve tüm "özgünlük girişimi" başımıza faktör analizi adı verilecek .FX1X2


PCA ile ilgili @ amoeba'nın "Güncelleme 2" sine bir cevap.

@amoeba, PCA ve onun genetik tekniklerinin (PCoA, ikiplot, yazışma analizi) SVD veya öz ayrışımına dayanan temelini oluşturan Eckart-Young teoremini hatırlamak için doğru ve uygundur. Buna göre, ilk ana eksenleri optimal olarak en aza indirir - eşit bir miktar - ve . Burada , ana eksenleri tarafından üretilen verileri gösterir . eşit olduğu bilinmektedir ile değişken olan yükleri arasındakX||XXk||2tr(XX)tr(XkXk)||XXXkXk||2XkkXkXkWkWkWkk bileşenler.

Bu , her iki simetrik matrisin sadece köşegen dışı kısımlarını göz önüne , minimize değerinin gerçek kaldığı anlamına mı geliyor ? Deney yaparak inceleyelim.||XXXkXk||2

500 rastgele 10x6matris üretildi (homojen dağılım). Her biri için, sütunlarını merkezleme sonra PCA yapıldı ve yeniden inşa edilmiş iki veri matrisleri hesaplanan: bir 3 arasındaki bileşenlerin 1 ile yeniden olarak ( , ve diğer PCA her zamanki gibi, önce) bileşenleri, 1, 2 ile yeniden olarak ve 4 (yani, bileşen 3, daha zayıf bir bileşen 4 ile değiştirildi). Yeniden yapılanma hatası (kare farkın toplamı = kare Öklid mesafesi) sonra bir , diğeri . Bu iki değer, bir dağılım grafiğinde gösterilecek bir çifttir.XXkk||XXXkXk||2XkXk

Yeniden yapılanma hatası her seferinde iki versiyonda hesaplandı: (a) tüm matrisler ve ; (b) sadece iki matrisin köşegenleri karşılaştırıldığında. Böylece, her biri 500 puana sahip iki saçılım noktamız var.XXXkXk

görüntü tanımını buraya girin

Görüyoruz ki, "matrisin bütününde" bütün noktalar çizginin üstünde y=x. Bu, tüm skaler-ürün matrisinin yeniden inşasının "1 ila 3 bileşen" ile "1, 2, 4 bileşenlerden" her zaman daha doğru olduğu anlamına gelir. Eckart-Young teoremi diyor ile bu doğrultudadır: İlk ana bileşenler iyi tesisatçıları vardır.k

Ancak, "sadece köşegen olmayanlar" grafiğine baktığımızda, y=xçizginin altında birkaç nokta olduğunu fark ediyoruz . Diyagonal olmayan bölümlerin bazen "1 ila 3 bileşen" tarafından yeniden yapılandırılmasının "1, 2, 4 bileşen" den daha kötü olduğu ortaya çıktı. Hangi otomatik olarak ilk sonuca götürür ana bileşenler düzenli PCA mevcut tesisatçıları arasında köşegen dışı skaler ürünlerin en iyi tesisatçıları değildir. Örneğin, daha güçlü bir yerine daha zayıf bir bileşen alınması bazen yeniden yapılanmayı iyileştirebilir.k

Bu nedenle, PCA'nın kendi alanında bile, bildiğimiz gibi genel varyansı tahmin eden ve hatta bütün kovaryans matrisi bile dahil tüm temel kovaryans matrisi bile - esasen diyagonal kovaryansları gerektirmez . Bu nedenle, bunların daha iyi bir şekilde iyileştirilmesi gerekir; ve faktör analizinin bunu sağlayabilecek (veya) teknik olduğunu biliyoruz.


@ Amoeba'nın "Güncelleme 3" üne bir takip: Değişken sayısı arttıkça PCA FA'ye yaklaşıyor mu? PCA geçerli bir FA yerine geçer mi?

Bir dizi simülasyon çalışması yaptım. Nüfus faktör yapıları, yükleme matrisleri bir az sayıda rasgele sayı inşa edilmiş ve bunlara karşılık gelen dönüştürüldü popülasyon olarak kovaryans matrisi ile, özgü bir çapraz parazit olan ( varyans). Bu kovaryans matrisleri tüm varyanslarla 1 yapıldığı için korelasyon matrislerine eşitti.AR=AA+U2U2

İki tip faktör yapısı tasarlanmıştır - keskin ve dağınık . Keskin yapı açık basit bir yapıya sahiptir: yüklemeler ya "düşük" olan "yüksek" dir, orta değildir; ve (benim tasarımımda) her değişken tam olarak bir faktör tarafından yüklenir. Karşılık gelen bu nedenle farkedilir şekilde blok benzeridir. Yaygın yapı, yüksek ve düşük yükler arasında ayrım yapmaz: bir sınır içindeki herhangi bir rastgele değer olabilir; ve yüklerin içinde hiçbir desen tasarlanmamıştır. Sonuç olarak, karşılık gelen daha yumuşak hale gelir. Popülasyon matrislerine örnekler:RR

görüntü tanımını buraya girin

Faktör sayısı ya da . Değişken sayısı k = faktör başına değişken sayısı oranı ile belirlendi ; Çalışmada k değerleri bulunmuştur.264,7,10,13,16

Birkaç inşa popülasyonu her biri için , (numune boyutu altında Wishart dağıtımdan ile rasgele gerçekleşmeleri ) oluşturulmuştur. Bunlar örnek kovaryans matrisleriydi. Her biri FA (ana eksen çıkarma ile) ve ayrıca PCA ile faktör analizi yapılmıştır . Ek olarak, bu gibi her bir kovaryans matrisi, aynı şekilde faktör analizi yapılan (faktörlü) aynı şekilde karşılık gelen numune korelasyon matrisine dönüştürüldü . Son olarak, "ebeveyn", nüfus kovaryansı (= korelasyon) matrisinin kendisinin de faktoringini yaptım. Kaiser-Meyer-Olkin örnekleme yeterliliği ölçüsü her zaman 0.7'nin üzerindedir.R50n=200

2 faktörlü veriler için analizler 2 ve ayrıca 1'in yanı sıra 3 faktörü de (doğru sayıda faktör rejiminin "hafife alınması" ve "fazla tahmin edilmesi") çıkardı. 6 faktörlü veriler için, analizler aynı şekilde 6, ayrıca 4 ve 8 faktörden de elde edilmiştir.

Çalışmanın amacı, FAA ve PCA'nın kovaryans / korelasyon restorasyon nitelikleriydi. Böylece diyagonal olmayan elemanların artıkları elde edildi. Çoğaltılmış elemanlar ve popülasyon matrisi elemanları arasındaki artıkları ve ayrıca eski ve analiz edilen örnek matris elemanları arasındaki artıkları kaydettim. 1. tipteki artıklar kavramsal olarak daha ilginçti.

Örnek kovaryansı ve örnek korelasyon matrislerinde yapılan analizlerden sonra elde edilen sonuçların bazı farklılıkları vardı, ancak tüm temel bulgular benzerdi. Bu yüzden sadece "korelasyon modu" analizlerini tartışıyorum (sonuçları gösteriyorum).

1. Genel olarak PCA'ya göre, FA ile çapraz uyum

Aşağıdaki grafikler, çeşitli faktörlere ve farklı k değerlerine karşı, PCA'da elde edilen ortalama kare dışı çapraz kalıntının, FA'de elde edilen aynı miktara oranını göstermektedir . Bu @ amoeba'nın "Güncelleme 3" te gösterdiğine benzer. Çizimdeki çizgiler, 50 simülasyondaki ortalama eğilimleri temsil eder (üzerlerindeki st. Hata çubuklarını göstermemeliyim).

(Not: Sonuçlar, onlara göre olan popülasyon matrisini faktoring yapmak yerine rastgele örneklem korelasyon matrislerinin faktoringi hakkındadır: PCA'yı bir popülasyon matrisini ne kadar iyi açıkladıkları konusunda FA ile karşılaştırmak aptalcadır. Doğru sayıda faktör çıkarılır, artıkları neredeyse sıfır olur ve bu nedenle oran sonsuza doğru yükselir.)

görüntü tanımını buraya girin

Bu arazileri yorumlayarak:

  • Genel eğilim: k (faktör başına değişken sayısı) PCA / FA toplam uyumluluk oranını büyüttüğü için, PCA / FA toplam uyumluluk oranı 1'e doğru düşer, yani daha fazla değişkenle PCA, diyagonal olmayan korelasyonları / kovaryansları açıklamada FA'ye yaklaşır. (@Amoeba tarafından cevabında belgelenmiştir.) Muhtemelen eğrilere yaklaşan yasa b = 0'a yakın olan oran = exp (b0 + b1 / k) şeklindedir.
  • Oran, “eksi çoğaltılmış örnek” (sol arsa) artıkları ile “nüfus eksi çoğaltılmış örnek” (sağ arsa) ile kalan artıklardan daha büyüktür. Yani (önemsiz olarak), PCA derhal analiz edilen matrisin yerleştirilmesinde FA'den düşüktür. Bununla birlikte, sol arsa üzerindeki çizgiler daha hızlı bir düşüş oranına sahiptir, bu nedenle k = 16 ile sağ arsa üzerinde olduğu gibi oran da 2'nin altındadır.
  • Artıklar “popülasyon eksi çoğaltılmış örnek” ile eğilimler her zaman dışbükey ve hatta monotonik değildir (sıradışı dirsekler daire şeklinde gösterilmiştir). Öyleyse, konuşmanın bir numuneyi çarpanlara ayırmak yoluyla bir popülasyon katsayıları matrisini açıklamakla ilgili olduğu sürece , değişkenlerin sayısını artırmak, eğilim eğilimi olmasına rağmen PCA'yı düzenli olarak FIT'ye yaklaştırmaz.
  • Oran m = 2 faktörler için popülasyondaki m = 6 faktörlerden daha yüksektir (koyu kırmızı çizgiler koyu yeşil çizgilerin altındadır). Bu, PCA verilerinde daha fazla etken bulunduğundan, daha önce FA ile yetişir. Örneğin, sağdaki çizimde k = 4, 6 faktör için yaklaşık 1.7 oran verirken, 2 faktör için aynı değere k = 7'de ulaşılır.
  • Gerçek faktör sayısına göre daha fazla faktör çıkarırsak, oran daha yüksektir. Diğer bir deyişle, PCA, çıkartmada faktörlerin sayısını hafife alırsak, FA'den sadece biraz daha kötü bir durumdur; ve eğer faktör sayısı doğru ya da fazla tahmin ediliyorsa, daha çok kaybeder (ince çizgileri kalın çizgilerle karşılaştırın).
  • Faktör yapısının keskinliğinin yalnızca “nüfus eksi çoğaltılmış örnek” artıklarını göz önüne alırsak ortaya çıkan ilginç bir etkisi var: sağdaki gri ve sarı alanların karşılaştırılması. Popülasyon faktörleri değişkenleri dağınık bir şekilde yüklerse, kırmızı çizgiler (m = 6 faktör) dibe batar. Yani, dağınık yapıda (kaotik sayıların yüklenmesi gibi) PCA (bir numunede gerçekleştirilir), popülasyondaki faktörlerin sayısının popülasyondaki faktör sayısının az olması şartıyla küçük klar altında bile yeniden yapılandırılmasında FA'den daha az kötü olduğu çok küçük. Bu muhtemelen PCA'nın FA'ye en yakın olduğu durumdur ve en neşeli ikame maddesi olarak garanti edilir. Keskin faktör yapısının varlığında PCA, popülasyon korelasyonlarının (veya kovaryanslarının) yeniden yapılandırılmasında pek iyimser değil: FA'ye sadece büyük k perspektifiyle yaklaşıyor.

2. PCA'ya göre FA'ye göre eleman seviyesinde uyum: artıkların dağılımı

Popülasyon matrisinden 50 rasgele örnek matrisin faktoringinin (PCA veya FA ile) yapıldığı her simülasyon deneyi için , artıkların her köşegen olmayan korelasyon elemanı için "faktör korelasyonu eksi çoğaltılmış popülasyon korelasyonu" numunesi korelasyonu " elde edildi. Dağılımlar net desenleri takip etti ve tipik dağılım örnekleri aşağıda gösterildi. Sonra Sonuçlar PCA faktoring mavi sol taraf ve sonrası sonuçlar FA faktoring yeşil sağ taraflarında bulunmaktadır.

görüntü tanımını buraya girin

Asıl bulgu şu ki

  • Mutlak büyüklükte popülasyon korelasyonları PCA tarafından inakatsız bir şekilde geri yüklenir: yeniden üretilen değerler büyüklük olarak fazla tahmin edilir.
  • Ancak önyargı, k (değişkenlerin sayı / faktör oranına oranı) arttıkça kaybolur . Fotoğrafta, faktör başına sadece k = 4 değişken olduğunda, PCA'nın artıkları 0'dan ofset olarak yayılır. Bu, hem 2 faktör hem de 6 faktör olduğunda görülür. Fakat k = 16 ile ofset çok az görülüyor - neredeyse yok oldu ve PCA fit FA uyumuna yaklaştı. Kalıntıların PCA ile FA arasında yayılmalarında (varyansında) bir fark gözlenmedi.

Benzer resim, çıkarılan faktörlerin sayısı gerçek faktörlerin sayısı ile uyuşmadığında da görülür: sadece artıkların değişmesi biraz değişebilir.

Yukarıda gri arka planda gösterilen dağılımlar , popülasyonda bulunan keskin (basit) faktör yapısına sahip deneylerle ilgilidir . Tüm analizler yaygın nüfus faktörü yapısı durumunda yapıldığında, PCA yanlılığının sadece k'nın yükselmesiyle değil, aynı zamanda m'nin (faktör sayısı) yükselmesiyle de ortadan kalktığı tespit edildi. Lütfen "6 faktör, k = 4" sütununun aşağıya doğru sarı arka plana eklerini görün: PCA sonuçları için gözlemlenen 0'dan neredeyse hiçbir kayma yok (kayma, henüz m = 2 ile gösterilmemiştir, resimde gösterilmemiştir. ).

Tanımlanan bulguların önemli olduğunu düşünerek artık dağılımları daha derinden incelemeye karar verdim ve artıkların (Y ekseni) saçılma alanlarını element (popülasyon korelasyonu) değerine (X ekseni) karşı çizdim . Bu saçılım grafikleri her biri, birçok (50) simülasyon / analizin sonuçlarını birleştirir. LOESS uyum hattı (% 50 yerel nokta, Epanechnikov çekirdeği) vurgulanır. İlk çizim grubu , popülasyondaki keskin faktör yapısı için geçerlidir (bu nedenle korelasyon değerlerinin üçlü olması belirgindir):

görüntü tanımını buraya girin

Yorum yapma:

  • Açıkça görüldüğü gibi (yukarıda açıklanmıştır) PCA'nın eğri olarak karakteristiği yeniden oluşturma önyargısı, negatif eğilimin kayma çizgisi: mutlak değer popülasyonu korelasyonlarında büyük, örnek veri setlerinin PCA'sı ile aşırı tahmin edilmektedir. FA tarafsızdır (yatay boşluk).
  • K büyüdükçe, PCA'nın önyargısı azalır.
  • PCA, popülasyonda kaç faktör olduğuna bakılmaksızın önyargılıdır: 6 faktör mevcutken (ve analizlerde 6 tanesi çıkarılmış), 2 faktörde olduğu gibi (2 tanesi çıkarılmış) benzer şekilde kusurludur.

Aşağıdaki ikinci grafik grubu , popülasyondaki yaygın faktör yapısı için geçerlidir:

görüntü tanımını buraya girin

Yine PCA'nın önyargısını gözlemliyoruz. Bununla birlikte, keskin faktör yapısı durumunun aksine, önyargı, faktör sayısı arttıkça azalır: 6 popülasyon faktörü ile PCA'nın gevşeklik çizgisi, sadece 4'ün altında bile yatay olmaktan çok uzak değildir. sarı histogramlar "daha önce.

Her iki scatter spot setindeki ilginç bir fenomen, PCA için loess çizgilerinin S-eğri olmasıdır. Bu eğrilik, derecesi değişmekle birlikte ve çoğu zaman zayıf olmasına rağmen, rastgele oluşturduğum (kontrol ettim) diğer popülasyon faktörü yapıları (yükler) altında gösterir. S şeklinden sonra izlenirse, PCA, 0'dan (özellikle küçük k'nin altında) sıçradıkça korelasyonları hızlı bir şekilde bozmaya başlar, ancak .30 veya .40 civarında bir değerden dengelenir. Şu anda bu davranışın olası bir nedeni için spekülasyon yapmayacağım, "sinüzoid" in korelasyonun triginometrik doğasından kaynaklandığına inanıyorum.

PCA'ya göre FA'e uygun: Sonuçlar

Olarak genel bir montajcı popülasyonundan bir numune matrisinin analiz uygulandığında - - korelasyon / kovaryans matrisinin köşegen dışı kısmının, PCA faktör analizi için oldukça iyi bir alternatif olabilir. Bu, değişkenlerin oranı / beklenen faktörlerin sayısı yeterince büyük olduğunda gerçekleşir. (Oranın faydalı etkisinin geometrik nedeni dipnot dipnotunda açıklanmıştır .) Daha fazla faktör bulunduğunda, oran sadece birkaç faktörden düşük olabilir. Keskin faktör yapısının varlığı (popülasyonda basit yapı vardır), PCA'nın FA kalitesine yaklaşmasını engellemektedir.1

Keskin faktör yapısının PCA'nın genel uyum yeteneği üzerindeki etkisi, yalnızca "popülasyon eksi çoğaltılmış örnek" artıkları göz önüne alındığı sürece belirgindir. Bu nedenle, bir simülasyon çalışma ortamı dışında onu tanımayı kaçırmak mümkündür - bir numunenin gözlemsel bir çalışmasında bu önemli kalıntılara erişimimiz yoktur.

Faktör analizinin aksine, PCA, sıfırdan uzakta olan popülasyon korelasyonlarının (veya kovaryansların) büyüklüğünün (pozitif) önyargılı bir tahmincisidir. Bununla birlikte, PCA'nın yanlılığı, değişken / beklenen faktörlerin sayısı arttıkça azalmaktadır . Taraflılık popülasyondaki faktörlerin sayısı arttıkça da azalır, ancak bu son eğilim mevcut keskin bir faktör yapısı altında engellenir.

PCA'nın uygun yanlılığının ve keskin yapının onun üzerindeki etkisinin, "eksi yeniden üretilmiş örnek" artıkları dikkate alındığında da ortaya çıkarılabileceğini; Sadece bu sonuçları göstermedim, çünkü yeni gösterim eklemek istemiyorlardı.

Benim çok belirsiz, geniş danışma sonunda (nüfus beklenen 10 veya daha az faktörlerle yani) tipik için PCA yerine FA kullanmaktan kaçınmaya olabilir faktör analitik amaçlarla sürece sen faktörlerden daha bazı 10+ kat fazla değişken var. Ve daha az faktör, ciddiyetinin gerekli oran olduğu. Ben FA yerine PCA kullanarak tavsiye daha da ileri götürecek tüm köklü, keskin faktör yapısıyla veriler incelendiğinde her - Böyle faktör analizi doğrulamak için yapılıyorsa geliştirilen ya da zaten belden yapılar / pullarla psikolojik test veya anket başlattı ediliyor . PCA, psikometrik bir araç için başlangıçtaki ön seçim maddelerinin bir aracı olarak kullanılabilir.

Çalışmanın sınırlamaları . 1) Sadece PAF faktör ekstraksiyonu yöntemini kullandım. 2) Örneklem büyüklüğü sabitlendi (200). 3) Örnek matrislerin örneklemesinde normal popülasyon varsayıldı. 4) Keskin yapı için, faktör başına eşit sayıda değişken modellenmiştir. 5) Nüfus faktörü yüklerini inşa ettim Onları kabaca tek tip (keskin yapı için - trimodal, yani 3 parça tek tip) dağıtımdan ödünç aldım. 6) Bu anlık sınavda elbette her yerde olduğu gibi gözetim olabilir.


Dipnot . PCA sonuçlarını taklit edecek FA ve ne zaman korelasyon eşdeğer tesisatçısı haline - dedi burada - denilen modelin hata değişkenleri benzersiz faktörler , ilintisiz olurlar. FA , onları ilişkisiz hale getirmeye çalışıyor , ancak PCA, PCA'da ilişkisiz olabiliyor . Oluşabileceği en büyük koşul, ortak faktörlerin (ortak faktörler olarak tutulan bileşenler) sayısı başına düşen değişken sayısının büyük olmasıdır.1

Aşağıdaki resimleri göz önünde bulundurun (önce onları nasıl anlayacağınızı öğrenmek için önce bu cevabı okuyunuz ):

görüntü tanımını buraya girin

Birkaç mortak faktörle başarılı bir şekilde korelasyonu geri kazanabilmek için faktör analizinin gerekliliği ile , manifest değişkenlerinin istatistiksel olarak benzersiz kısımlarını karakterize eden benzersiz faktörler , ilişkisiz hale getirilmelidir. PCA kullanıldığında, s yalan söylemek zorunda arasında altuzaydan tarafından yayılmış -Space PCA çünkü ler gelmez analiz değişkenlerin boşluk bırakın. Böylece - soldaki resme bakın - ( ana bileşeni , çıkarılan faktördür) ve ( , ) analiz edildi, benzersiz faktörler ,UpXp Up-mpXm=1P1p=2X1X2U1U2Kalan ikinci bileşen üzerinde zorunlu olarak üst üste binme (analizin hatası olarak kullanılır) Sonuç olarak, ile ilişkilendirilmeleri gerekir . (Pic'te korelasyonlar, vektörler arasındaki açıların kosinüslerine eşittir.) İstenen dikgenlik mümkün değildir ve değişkenler arasında gözlenen korelasyon asla geri alınamaz (benzersiz faktörler sıfır vektör olmadıkça, önemsiz bir durum).r=1

Ancak bir değişken daha eklerseniz ( ), sağdaki resim ve hala bir tane ayıklayın. ortak faktör olarak bileşen, üç bir düzlemde yatmak zorundadır (geri kalan iki pr. bileşen tarafından tanımlanır). Üç ok, bir uçağı aralarındaki açılar 180 dereceden daha küçük olacak şekilde yayılabilir. Açıların özgürlüğü ortaya çıkıyor. Bir muhtemel özel bir durum olarak, açılar için eşit, 120 ° ile ilgili olarak. Bu zaten 90 dereceden, yani ilişkisiz olmasından çok uzak değil. Resimde gösterilen durum budur.X3U

4. değişkeni eklediğimizde 4 , 3B alanı kaplayacak. 5, 5, 4d, vb. Aralıklarla açılarla aynı anda 90 dereceye yaklaşmak için aynı anda birçok oda genişleyecektir. Bu, PCA'nın FA'ye yaklaşması için korelasyon matrisinin diyagonal üçgenlerini sığdırma kabiliyetinde de genişleyeceği anlamına gelir.U

Ancak, gerçek FA genellikle küçük değişkenli "değişken sayısı / faktör sayısı" oranı altında bile korelasyonları eski haline getirebilir çünkü burada açıklandığı gibi (ve orada 2. resme bakınız) faktör analizi tüm faktör vektörlerine (ortak faktör (ler) ve benzersiz olana izin verir olanlar) değişkenlerin uzamında yatmaktan sapmak. Bu nedenle ortogonal ilişkin olup , hatta sadece 2 değişken ile ler ve bir faktör.UX

Yukarıdaki resimler ayrıca PCA'nın neden korelasyonları gereğinden fazla abarttığına dair net bir ipucu veriyor . Sol pic, örneğin, üzerinde , s izdüşümüdür ile s (yüklemeleri ) ve s uzunlukları s (yükleri ). Fakat tarafından yeniden inşa olarak bu korelasyon yalnız sadece eşittir daha yani büyük .rX1X2=a1a2u1u2aXP1P1uUP2P1a1a2rX1X2


1
PCA / FA / CCA çizimlerinizi çok seviyorum, çok mutlu bir şekilde +1. Bu düşünme şekli tamamen alışkın olmadığım bir şey, bu yüzden bildiğim matematikle eşleştirmek için bazı düşünceler gerektiriyor ... Ancak, burada (diğer ünlü FA-vs-PCA yanıtlarınızda olduğu gibi) çizimler) sadece iki değişkeniniz var. Cevabımda söylediğim gibi, sadece iki değişken olduğunda, FA'de bir faktör kovaryansı kusursuzca,% 100'ü yeniden oluşturmak için yeterlidir (çünkü kovaryans matrisinde köşegen dışında sadece bir derece serbestlik vardır), fakat bir PC genellikle bunu yapamaz. Yani cevabımla çelişki yok.
amip

Hmm, umarım FA ve PCA'nın farklı üreme noktalarını yanlış anlamadım. Buradaki yer, benim açımdan kısa, başka bir cevaba
Gottfried Helms

2
Güncellemenize cevap vermek (2 numaralı güncellememe cevabınız): Burada yazdığınız her şeye kesinlikle katılıyorum! PCA yüklemeleri, tüm kovaryans matrisine en iyi düşük dereceli yaklaşımdır (diyagonal dahil), ancak bunun en iyi düşük dereceli yaklaşıma göre en iyi düşük dereceli yaklaşım; bu son yaklaşım faktör analizi ile verilmektedir. Burada karşılıklı anlaşmaya vardığımız anlaşılıyor; Yoksa hala cevabımın bazı kısımlarının senin düşüncenle çeliştiğini hissediyor musun?
amip

1
@ ttnphns: Yukarıdaki tartışmamızı tekrar okudum ve orijinal cevabımda yaptığım bir noktaya geri dönmeme izin verin. PCA tüm kovaryans matrisine yaklaşan yükleri bulmaya çalışır; FA, diyagonal kısmına yaklaşan yükleri bulmaya çalışır. Ancak boyutsallık büyüdükçe, kovaryans matrisinin daha küçük kısmı köşegen tarafından alınmaktadır, bu da büyük boyutlarda PCA'nın çoğunlukla köşegen dışı kısmına dikkat etmeye başladı (çünkü köşegen kısmı çok küçük olur). Genel olarak, boyutluluk büyüdükçe, PCA FA'ye yaklaşır. Katılıyor musun?
amip

1
Ping için teşekkürler, ttnphns. Vay, bu ilginç görünüyor. Dikkatlice okuyacağım ama şu anda değil; Ocak ayına kadar ertelemem gerekebilir. Okuduktan sonra burada yorum yapacağım. Bu arada, (başımın arkasında) bu konuya geri dönmeyi ve cevabımı biraz daha “uzlaştırıcı” yapmak için düzenlemeyi düşünüyorum. Bunu yapmak için iyi bir fırsat olabilir (ama önce yazdıklarını okumama izin ver). С наступающим!
Amip

4

(Bu gerçekten @ ttnphns'ın ikinci cevabına bir yorumdur)
PC ve FA tarafından farzederek farklı kovaryans türlerinin çoğaltılması söz konusu olduğunda, iki öncede meydana gelen varyans yüklerini / komponentlerini basitçe yazdım. ; Sadece örnekler için 2 değişken aldım.

İki maddenin yapılışını ortak bir faktör ve maddeye özgü faktörler olarak kabul ediyoruz. İşte bu faktör-yükleme matrisi:

  L_fa: 
          f1       f2      f3         
  X1:   0.894    0.447     .             
  X1:   0.894     .       0.447              

Bununla korelasyon matrisi

  C:
         X1       X2 
  X1:   1.000   0.800
  X2:   0.800   1.000

L_fa loadings matrisine bakarsak ve FA'de f2 ve f3'ün hata terimleri / itemspesifik hata olduğunu herzamanki gibi yorumlarsak, C'yi bu hatayı almadan tekrar üretiyoruz

 C1_Fa 
        X1       X2 
 X1:  0.800   0.800
 X2:  0.800   0.800

Bu yüzden, kovaryans olan ve köşegen azalmış olan köşegen dışı elemanı mükemmel bir şekilde yeniden ürettik.

Pca çözümüne bakarsak (basit döndürmelerle yapılabilir) aynı korelasyon matrisinden iki faktörü alırız:

 L_pca : 
         f1        f2
 X1:   0.949      -0.316
 X2:   0.949       0.316

İkinci faktörü hata olarak kabul edersek çoğaltılan kovaryans matrisini elde ederiz

  C1_PC : 
        X1      X2
 X1:   0.900   0.900
 X2:   0.900   0.900

Gerçek korelasyonu fazla tahmin ettik . Bunun nedeni , ikinci faktördeki hataların düzeltilmesi negatif kısmi kovaryansı görmezden gelmemizdir = hata. PPCA'nın ilk örnek ile aynı olacağını unutmayın.

Daha fazla öğe ile bu daha belirgin değil ama yine de doğal bir etkidir. Bu nedenle MinRes-ekstraksiyon (veya -rotasyon?) Kavramı da var ve ben de maksimum-determinant çıkarma gibi bir şey gördüm.


[güncelleme] @amoeba sorusuna gelince:

"Minimal Artıklar" ("MinRes") kavramını - bir korelasyon matrisinin köşegen olmayan elemanlarının en iyi şekilde çoğaltılmasını sağlamak için önceki CFA-hesaplama yöntemlerine eşlik eden bir yöntem olarak döndürme kavramını anladım. Bunu 80'lerde / 90'lı yıllarda öğrendim ve faktör analizinin gelişimini takip etmedim (son yıllarda olduğu gibi), bu nedenle "MinRes" modası geçmiş olabilir.

PCA-çözümü ile karşılaştırmak için : bir öklid uzayında eksen olarak düşünüldüğünde faktörlerin dönmesiyle pc-çözeltisini bulmayı düşünebiliriz ve yükler bu vektör uzayındaki öğelerin koordinatlarıdır.
Sonra, bir çift eksen için, x, y, x ekseninin ve y ekseninin yüklerinden karelerin toplamını hesaplar.
Bundan, döndürülmüş eksenlerde karelerin toplamını x ° maksimum ve minimum y ° ekseninde (litte dairesi döndürülmüş eksenleri gösterir) elde etmek için döndürmemiz gereken bir dönüş açısı bulabiliriz. .

Bunu tüm eksen çiftleri için yapın (burada sadece her zaman x ekseni sol ve y ekseni de sağdır (yani 4 faktör için sadece 6 dönüş çiftimiz var)) ve sonra tüm süreci kararlı bir sonuç için tekrarlayın temel bileşenler çözümünün bulunması için "Jacobi-yöntemi" ni anlar: ilk ekseni, yüklerin mümkün olan maksimum kareler toplamını ("SSqL") (yani varyans "anlamına gelir") toplayacak şekilde yerleştirir. ") mevcut korelasyon yapılandırmasında bir eksende.

Anladığım kadarıyla " MinRes ", SSqL yerine kısmi korelasyonlara bakmalı; bu nedenle, yüklerin karelerini (Jacobi-pc-rotasyonunda yapıldığı gibi) toplamaz ancak her faktörün yüklerinin "çapraz ürünleri" (= kareleri) hariç her faktördeki yüklerin çapraz ürünlerini toplar. kendisi ile madde.
X ve y ekseni için kriterler hesaplandıktan sonra, yinelemeli jacobi dönüşü için tarif edilenle aynı şekilde ilerler.

Dönme kriteri sayısal olarak maksimum SSqL kriterinden farklı olduğundan, sonuç / dönme konumu PCA çözümünden farklı olacaktır. Birleşiyorsa, bunun yerine ilk faktördeki bir eksen üzerinde mümkün olan maksimum kısmi korelasyonu sağlamalıdır, bir sonraki faktörde bir sonraki maksimum korelasyonu, vb. Fikir, kalan / artık kısmi kovaryansın marjinal olacağı şekilde birçok eksen / faktör varsaymak gibi görünüyor.

() Ben explicitely dışarı yazılı olduğu prosedür görmedim, eşyaları nasıl yorumladığını bu sadece Not (veya şu anda hatırlayamıyorum; bir açıklama MathWorld Amoeba'nın yanıtında gibi formüller açısından oldukça bunu ifade etmek görünüyor) ve bir muhtemelen daha yetkili. R-project dokümantasyonunda başka bir referans buldum ve Gorsuch kitabında factoranalysis ile ilgili çok iyi bir referans, sayfa 116, google-kitaplar aracılığıyla mevcut )


Son cümlenizde neyi kastettiğinizi açıklayabilir misiniz? "MinRes" veya "maksimum belirleyici" çıkarımı nedir ve bunun daha önce yazdıklarınızla ne alakası var?
amip

"MinRes", yıllar önce S Mulaik veya K. Überla'nın Factoranalysis ile ilgili monografilerinde rastladığım bazı ekstraksiyon veya rotasyon metodlarıdır. Artık offdiagonal elemanların en aza indirilmesine odaklanır. Çünkü açıkça açıkça belirtildiği gibi, birçok diğer yöntem bağlamında, o dönemin uygulamalarından - CFA’dan - biraz daha farklı - olduğunu varsaydım. Bunun gerekçesini bir dönme kriteri olarak uygulamaya çalıştım ama bir şekilde kesin bir sonuç çıkmadı. "Belirleyiciyi en üst düzeye çıkarma" nın burada bilinmesini beklerdim; 20 yıl önce ne aldığımı göreceğim ...
Gottfried Helms

Ahh, iki parçam da var. "Minres" -rationale için dönme ölçütünün açıklaması go.helms-net.de/stat/fa/minres.htm adresindedir . "Azami belirleyici", "oblisim" olarak adlandırılan ve muhtemelen yazışmadan sonra geliştirilen bazı muhabir Jeffrey Owen Katz'ın bir çıkarma / döndürme yöntemi altındaki matematiksel modeldir. O zamana kadar kafamın üzerindeydi; Neyse, yöntemi anlamaya çalıştım ve bir kelime dosyasında biçimlendirdi ve yeniden düzenledi. Bkz. Go.helms-net.de/stat/fa/oblisim.zip "oblisim" için Google, tanıtmış gibi görünen bir haber grubu girişi yaptı.
Gottfried Helms,

@ amoeba: Muhtemelen Jeff Katz'ın kendi yöntemlerini tanıttığı ilk giriş: mathforum.org/kb/message.jspa?messageID=1516627 1998’den beri 20 yıl önceki tahminim biraz kesinti ...
Gottfried Helms,

2

Benim görüşüme göre, "PCA" ve "FA" kavramları, "keşif", "doğrulayıcı" veya "çıkarımsal" kavramlarından farklı bir boyuttadır. Böylece, iki matematiksel / istatistiksel yöntemin her biri üç yaklaşımdan biriyle uygulanabilir.

Mesela neden bir hipoteze sahip olmamızın bir anlamsız olması, verilerimin genel bir faktöre ve aynı zamanda bir dizi temel bileşenin yapısına sahip olması (elektronik cihazımla yaptığım deneyimin bana neredeyse hatasız veriler vermesi nedeniyle) neden hipotezi test ettiğimi, sonraki faktörlerin özdeğerlerinin% 75 oranında gerçekleştiği? Bu daha sonra doğrulayıcı bir çerçevede PCA'dır.

Öte yandan, araştırma ekibimizde çok çalışarak öğrenciler arasındaki şiddeti ölçmek ve 3 ana davranış (varsayım, depresyon, yetkililer / ebeveynler için yardım aramak) ve ilgili soruları sormak için çok çaba sarf etmemiz çok saçma görünüyor. Bu bataryada ... ve "sömürücü" olarak kaç tane faktörümüz olduğuna karar verdik ... Bakmak yerine, ölçeğimizin ne kadar iyi tanınabilir üç faktör içerdiğini (ihmal edilebilir maddelerin yanı sıra özel ve muhtemelen sahte bir şekilde ilişkili hata dışında). Ve bundan sonra, doğruladığımda, gerçekten de bizim ürün pilimizin amacına hizmet ettiğini, küçük çocukların sınıflarında "yetkililer tarafından yardım aramayı" belirten faktör üzerindeki yüklerin daha yüksek olduğu hipotezini test edebiliriz. yaşlı öğrencilerinkinden daha fazla. Hmmm, yine doğrulayıcı ...

Ve keşif? 1960'tan itibaren mikrobiyoloji üzerine yapılan bir araştırmadan bir dizi önlem aldım ve çok fazla teoriye sahip olmadılar, ancak araştırma alanlarının çok küçük olduğu için başarabilecekleri her şeyi örneklediler ve (örneğin) farz ettim. , kullanılan mikroskobun optik hassasiyetinden ötürü tüm hataların aynı miktarda olması (daha önce öğrendiğim gibi ppca-ansatz). Daha sonra FA için istatistiksel (ve ardından matematiksel) modeli kullanıyorum, ancak bu durumda keşifçi bir şekilde.

Bu en azından şartları nasıl anladığım.
Belki de burada tamamen yanlış yoldayım, ama sanmıyorum.


Ps. 90'lı yıllarda PCA ve factoranalysis yöntemini aşağıdan yukarıya doğru incelemek için küçük bir etkileşimli program yazdım. Turbo-Pascal'da yazılmıştır, ancak hala bir Dos Penceresinde çalıştırılabilir (Win7'nin altındaki "Dos-box") ancak gerçekten hoş bir çekiciliği vardır: dahil edilmesi veya eklenmemesi, sonradan döndürülmesi ve ayrı ayrı öğelere özgü faktörlerin etkileşimli olarak değiştirilmesi varyans (SMC kriterine göre veya eşit varyans kriterine (ppca?) göre), Kaiser seçeneğini açık ve kapalı konuma getirin, kovaryansların kullanımı açık ve kapalı - faktörü bir elektronik tablodaki gibi görünürken ve temel farklı rotasyon yöntemleri için döndürülebilir.
Çok karmaşık değildir: Örneğin, yalnızca iç matematik mekaniğinin kendi kendini öğrenmesi için tasarlanan chisquare testi yoktur. Ayrıca, programın kendini çalıştığı, ekranda açıklayıcı yorumlar gösteren ve kullanıcının normalde yapacağı klavye girişlerini taklit eden bir "demo modu" vardır.
Kendine çalışma veya onunla öğretmenlik yapmak isteyen herkes onu içindeki küçük yazılım sayfalarımdan indirebilir- (R) .zip Sadece zip içerisindeki dosyaları Dos-Box tarafından erişilebilen bir dizinde aç ve "demoall.bat" de. "demoall" un üçüncü kısmı, başlangıçta bir pca çözümünden dönerek maddelere özgü hataların nasıl modelleneceğini gösterdim ...


Programınızın bir R portu ilginç olurdu. Bu arada, ilk programlama dilim (ve favorilerimden biri) [Turbo] Pascal idi. Lisans diplomam için yazdığım yazılımı bile kullandım. Sonra bir süre sonra Delphi'yi bir süre diğer dil ve sistemlerle birlikte kullandım. :-)
Aleksandr Blekh

1
@ Aleksandr: Eh, böyle bir ithalat kesinlikle iyi bir fikir olurdu; bununla birlikte ... bu arada, yerel trafik sistemi için "Senior's bilet" alıyorum ve yine de yorgun olmama rağmen, programlamadan biraz yoruldum ... "Delphi" nin Turbo Pascal'ın doğal bir alternatifi olduğunu düşünüyorum. ; Inside- [r] 'ı bir yardımcı araç olarak dahil ettiğim Delphi 6'yı kullanarak bir matris hesaplayıcısına "MatMate" ye kadar geliştirdim. Ancak bazen bence, Inside- [r] 'da bas ve tıklamanın gerçekten güzel bir özelliği de tekrarlanmalı - sofistike bir senaryo ya da tercüman dilinin yanı sıra ...
Gottfried Helms

2

@ Amoebas'ın -estimate karakterinin uzun (ve gerçekten harika) cevabı için sadece bir ek not . Ψ

İlk ifadelerinizde üç : PCA için , PPCA için ve FA için belirsiz bıraktınız . ΨΨ=0Ψ=σ2IΨ

Ancak, sınırsız sayıda çeşitli olası (kesinlikle sınırlı) olduğu, ancak faktör matrisinin sırasını en aza indiren tek bir tane olduğu belirtilmelidir. Buna için standart (otomatik) tahmin, temel alan köşegen , bu yüzden şunu yazalım (ve hatta Bazı yazılımlar (göründüğü gibi) aşağıya doğru optimize etmeye çalışmazken , (genellikle) Heywood-case / negatif-kesinliği önlemek için gereklidir. Üstelik, böyle bir optimize bile olsaΨΨoptΨstdΨstd=α2Dsmcα1α<1 α2Kalan kovaryansların asgari derecesini garanti etmeyeceğimiz için, genellikle buna eşit değiliz : genel olarak . Gerçekten bulmak için çok zor bir oyundur ve bildiğim kadarıyla (ama 20 yıl önce kitaplara daha fazla karıştığım ve bundan daha fazla "uzak" değil) bu hala çözülmemiş bir problem. ΨstdΨopt
Ψopt


Bu , problemin ideal, matematiksel yönünü yansıtıyor ve ile da aslında küçük olabilir. Bununla birlikte, daha genel bir uyarı, tüm örnekleme makinesini yalnızca benim örneklem üzerinde çalıştığım veya tüm nüfus hakkında veri sahibi olduğum görüşünde ele almasıdır ; popülasyondaki kusurlu bir örneklemden çıkardığım çıkarımsal istatistik modelinde ampirik kovaryansım ve dolayısıyla faktör matrisi sadece bir tahmindir, bu sadece "gerçek" kovaryans / faktör matrisinin bir gölgesidir. Dolayısıyla böyle bir çerçeve / modelde "hatalarımızın" ideal olmadığını bile düşünmeliyizΨstdΨoptve bu nedenle sahte bir şekilde ilişkili olabilir. Bu yüzden aslında bu tür modellerde, bir şekilde idealize edilmemiş bir yanılgı ve dolayısıyla kesinlikle diyagonal biçiminde bir varsayım varsayımını geride bırakmalıyız / bırakmalıyız .Ψ


Merhaba, buradaki ifadelerinizi tam olarak takip edebileceğimden emin değilim. Doğru anladıysam tarafından o Do olumlu unsurları ile böyle bir köşegen matris anlamına (mümkün olan en düşük sıralamaya sahip cov / corr matristir)? Ben genel düşünüyorum boyutu bu mümkün olan en düşük rütbe çok daha küçük olmaması (belki falan), bu yüzden bulma çok ilginç görünmüyor. Cevaplarımı, FA’nin , verilen bir için ve ( boyutu) bulmaya çalıştığı varsayımınaΨoptCΨoptCCn×nnn1ΨoptΨWn×kk) simge durumuna küçültmek için . CWWΨ
amip

Bakış açılarının farkı, birbirlerine de bağlı olan iki parametreyi tahmin etme problemini çözme adımlarının sırasına bağlı olabilir. Benim , geriye kalan rütbenin , in minimum ve olduğu bir olduğu , aklımızda olan bazı faktörlere sahip olabiliriz . Daha sonra küçük pozisyonlara , sağdan kesilen faktörlerinden herhangi biri sadece minimal (kısmi) kovaryansı ortadan kaldırır. ...ΨoptrC=CΨopt||CWrWr||=0kk<rWrr+1k
Gottfried Helms,

(...) Eğer ile başlarsanız yerine, vardır genel, en az bir sıralamada daha ve böylece faktörler s sayısının olacak . Daha sonra faktörlerini (pc veya minres gibi bazı kriterler tarafından döndürüldükten sonra bile) keserek minimum çıkarılabilir kovaryans miktarını bulmak suboptimal olacaktır. Feragatname : Bu hala bir hipotezdir - yapısı kendiliğinden üretilmeyen kovaryanslar için bulmak zordur , kendiliğinden yapılan örneklerle yapılan tüm sahte ve deneyler ampirik vakalardan daha az güvenilirdir. ΨstdCstds>rs+1kΨopt
Gottfried Helms,

Tamam, ne dediğini anlıyorum. istediğim, çoğu gerçek için neredeyse aynı olacağı , yani . Biri sonra basitçe döndürürse , bu muhtemelen üzerinde PCA yapmaya neredeyse eşdeğer veya çok yakındır ve hiç FA ile . CC=CΨoptCrnkWrC
Amip

Doğru. Eh, pratik olarak hesaplanabilir yaklaşımlara indirgendiğimiz yerden “ideal” vakanın nerede bulunması gerektiğini en açık şekilde ifade etmeyi düşündüm. <br> Ve şimdi PCA lehine daha da iyisi ;-): Hatada sahte korelasyona izin vermek (ikinci uygulama modunda / çıkarımsal istatistikte), sonucun PC ekstraksiyonuyla başlayan türden birine daha da yaklaşmasını sağlar. ...
Gottfried Helms,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.