PCA'daki özvektörlere karşı yüklemeler: ne zaman bir başkası kullanılmalı?


67

Temel bileşen analizinde (PCA) özvektörler (birim vektörler) ve özdeğerler elde edilir. Şimdi, yüklemeleri olarak tanımlayalım

Loadings=EigenvectorsEigenvalues.

Özvektörlerin sadece yön olduğunu ve yüklerin (yukarıda tanımlandığı gibi) bu yönler boyunca varyansı içerdiğini biliyorum. Fakat daha iyi anladığım için, özvektörler yerine yükleri nerede kullanmam gerektiğini bilmek isterim? Bir örnek mükemmel olurdu!

Genelde sadece özvektör kullanan insanlar gördüm, ancak arada bir yükler kullanıyorlar (yukarıda tanımlandığı gibi) ve sonra farkı gerçekten anlamadığımı hissetmeye başlıyorum.

Yanıtlar:


66

PCA'da, kovaryans (veya korelasyon) matrisini ölçek kısmına (özdeğerler) ve yön kısmına (özvektörler) ayırırsınız. Daha sonra özvektörleri skala ile donatabilirsiniz: loadings . Böylece, yükler değişkenler arasında gözlemlenen kovaryanslar / korelasyonlar ile büyüklükle karşılaştırılabilir hale gelir, çünkü değişkenlerin eş değişkenliğinden çizilenler şimdi geri döner - değişkenler ve temel bileşenler arasındaki eş değişkenlik şeklinde. Aslında, yükleri olan orijinal değişken ve birim ölçekli bileşenler arasında kovaryanslar / korelasyonlar . Bu cevap geometrik olarak hangi yüklerin olduğunu ve bileşenleri PCA veya faktör analizindeki değişkenlerle birleştiren katsayıların neler olduğunu gösterir.

Yükler :

  1. Temel bileşenleri veya faktörleri yorumlamanıza yardımcı olur; Ünite ölçeklendirilmiş bileşenlerin veya faktörlerin bir değişkeni tanımladığı veya "yüklediği" lineer kombinasyon ağırlıklarıdır (katsayılar) .

    (Özvektör sadece bir ortogonal dönüşüm veya projeksiyon katsayısıdır , değeri içinde "yük" içermez. "Yük", (miktarının bilgisi) varyans, büyüklüktür. PC'ler değişkenlerin varyansını açıklamak için çıkarılır. biz eivenvalue biz "yükleme" varyans miktarı ile çıplak katsayısı sq.root ile özvektör çarptığımda (= açıklanabilir) Bilgisayarlar varyansları.. bu sayesinde biz ölçüsü olduğu katsayısı yapmak ilişki , ko- değişkenlik).

  2. Yükleri bazen edilir "döndürülmüş" (örn varimax) sonradan yorumlanabilirliğini (kolaylaştırmak için ayrıca bakınız );

  3. Orijinal kovaryans / korelasyon matrisini "geri yükleyen " yükler (aynı zamanda PCA ve FA'nin bu açıdan nüanslarını tartışan bu konuya bakınız );

  4. PCA'da, bileşenlerin hem özvektörlerden hem de yüklerden değerlerini hesaplayabilirsiniz, faktör analizinde yüklerden faktör puanlarını hesaplarsınız .

  5. Ve her şeyden önce, yükleme matrisi bilgilendiricidir: dikey kareler toplamı özdeğerler, bileşenlerin varyansları ve yatay kareler toplamları, değişkenlerin bileşenlerin "açıkladığı" bölümlerinin parçalarıdır.

  6. Yeniden ölçeklendirilmiş veya standartlaştırılmış yükleme, değişkenin st. sapma; korelasyondur. (Senin PCA PCA korelasyon tabanlı ise korelasyon tabanlı PCA standartlaştırılmış değişkenlere PCA, çünkü yükleme, tek yeniden ölçeklemek eşittir.) Rescaled yükleme kare bir pr katkısının anlamı vardır. değişkene bileşen; eğer yüksekse (1'e yakın) değişken yalnızca o bileşen tarafından iyi tanımlanır.

PCA ve FA’de yapılan hesaplamalara bir örnek görmeniz için .

Özvektörler birim ölçekli yüklemelerdir; ve bunlar değişkenlerin ortogonal dönüşümünün (dönme) asıl bileşenlere veya arkaya katsayılarıdır (kosinüsleri). Bu nedenle, bileşenlerin değerlerini (standartlaştırılmamış) onlarla hesaplamak kolaydır. Bunun yanında kullanımları sınırlıdır. Kare değerindeki özvektör değeri bir değişkenin pr'e katkısının anlamını taşımaktadır. bileşen; eğer yüksekse (1'e yakın) bileşen tek başına bu değişken tarafından iyi tanımlanır.

Her ne kadar özvektörler ve yükler , iki noktadaki verinin sütunlarını (değişkenlerini) temsil eden aynı noktaların koordinatlarını normalleştirmek için iki farklı yol olsa da, iki terimi karıştırmak iyi bir fikir değildir. Bu cevap nedenini açıkladı. Ayrıca bakınız .


3
Burada farklı alanlarda farklı sözleşmeler olması mümkün mü? Bu soruyu tökezledim, çünkü benim alanımda (kemometri) olağan yol ortonormal yüklere sahip olmaktır. Başka bir deyişle, ölçek / büyüklük / , yüklere değil puanlara gider. Yükler eşit = özvektör matrisinin transpoze eşittir. Bunu hem "Chemometrics ve Qualimetrics El Kitabı" hem de kemometri için en önemli 2 referans çalışmasını düşündüğüm "Kapsamlı Kemometreler" ile iki kez kontrol ettim. eigenvalues
cbeleites,

1
Not: Kemometride, orijinal verilerden alınan puanların hesaplanması büyük öneme sahiptir, çünkü pek çok tahmin modelinde ön işleme için PCA rotasyonu (!) Kullanılır, bu nedenle yüklerin sınırlı kullanımı IMHO bizim PCA için ana kullanımımızdır.
cbeleites,

2
@cbeleites, PCA / FA terminolojik sözleşmelerinin farklı alanlarda (veya farklı yazılım veya kitaplarda) farklılık göstermesi mümkün değildir - Farklı olduklarını belirtiyorum. Psikoloji ve insan davranışlarında "yüklemeler" genellikle adla etiketlendiğim şeydir (yüklemeler bu alanlarda çok önemlidir çünkü gecikmelerin yorumlanması beklenir, skorlar küçültülebilir, standardize edilebilir ve kimse umursamaz). Öte yandan, Rbu sitedeki birçok kullanıcı PCA'nın özvektörlerini "yükler" olarak adlandırmıştır ki bu muhtemelen işlev dokümantasyonundan gelebilir.
ttnphns

(devamı) En kötüsü, “yüklemeler” kelimesinin, PCA'dakiyle aynı anlamda değil, diğer tekniklerde (LDA, kanonik korelasyonlar vb.) kullanılmasıdır. Böylece kelimenin kendisi tehlikeye girer. Tamamen bırakılmasını ve "korelasyonlar" veya "katsayılar" gibi istatistiksel olarak kesin terimlerle değiştirilmesini öngören @ amoeba ile aynı fikirdeyim. Öte yandan, "özvektörler" svd / eigen ayrışması ve bazı dim yöntemleri ile sınırlı gibi görünmektedir. azaltma, bunları tamamen veya klasik biçimde yapmaz.
ttnphns

1
Karıştırıyor olmalısın. Yüklemelerin yardımı ile PC puanlarını doğru bir şekilde hesapladığınızda, basitçe standartlaştırılmış bileşenler ile sonuçlanır. Bu puanları özvektörlerle yaptığınız formülle hesaplamazsınız; bunun yerine # 4'ümün linkinde açıklanan formülleri kullanmalısın.
ttnphns

3

Yükler, katsayılar ve özvektörler hakkında çok fazla kafa karışıklığı var gibi görünüyor. Yüklemeler kelimesi Faktör Analizinden gelir ve veri matrisinin faktörler üzerindeki regresyon katsayılarını ifade eder. Faktörleri tanımlayan katsayılar değildir. Örneğin, Mardia, Bibby ve Kent veya diğer çok değişkenli istatistik ders kitaplarına bakınız.

Son yıllarda, kelime yükleri, PC'lerin katsayılarını belirtmek için kullanılmıştır. Burada, matrisin özdeğerlerinin sqrt ile çarpılan katsayıları belirtmek için kullanılmış gibi görünüyor. Bunlar PCA'da yaygın olarak kullanılan miktarlar değildir. Ana bileşenler, birim norm katsayıları ile ağırlıklandırılmış değişkenlerin toplamı olarak tanımlanır. Bu şekilde PC'ler karşılık gelen özdeğere eşit normlara sahiptir, bu da bileşen tarafından açıklanan varyansa eşittir.

Faktör Analizinde faktörlerin birim normuna sahip olmaları istenmektedir. Fakat FA ve PCA tamamen farklı. PC'lerin katsayısının döndürülmesi, nadiren yapılır, çünkü bileşenlerin optimizasyonunu tahrip eder.

FA'de faktörler benzersiz şekilde tanımlanmamıştır ve farklı şekillerde tahmin edilebilir. Önemli miktarlar, yükler (gerçek olanlar) ve kovaryans matrisinin yapısını incelemek için kullanılan topluluklardır. Bileşenleri tahmin etmek için PCA veya PLS kullanılmalıdır.


2
Belli yönlerde (+1) doğru olan bu cevap, hem FA hem de PCA'nın görülebilir olduğunu ve karşılaştırılabilir olduğunu (ancak farklı olarak) faktörlerin / bileşenlerin (ikincil alınan birim ölçeklendirilmiş) faktörleri tarafından gösterildiğinin öngörüsü olarak görür. Yükler bu tahminin katsayılarıdır. Bu yüzden yükler hem FA hem de PCA alanlarında aynı anlama gelen terimlerdir ve kullanılmaktadır.
ttnphns,

3
Ayrıca, bazı kaynakların (özellikle, R dokümantasyonu) dikkatsizce özvektör katsayılarını "yükler" olarak adlandırmaları üzücüdür - bunlarda yük yoktur .
ttnphns,

Sadece FA ve PCA farklı bir model tahmin ediyor. FA'de PCA'da hatalar dikey değillerdir. Bir model için balık avı olmadığı sürece sonuçları karşılaştırmakta pek bir şey görmüyorum. Yükler L, kovaryans matrisini çapraz matrisin S = LL' + Colduğu gibi yazmak için kullanılan matrisin sütunlarıdır C. PC'lerin katsayıları ile ilgisi yoktur.
Marco Stamazza 18:16

they have nothing to do with the PCs' coefficientsPCA'daki yükleri FA'deki gibi hesaplıyoruz. Modeller farklıdır ancak yüklerin anlamı her iki yöntemde de benzerdir.
ttnphns

0
In Factor Analysis (using PCA for extraction), we get orthonormal eigen vectors (unit vectors) and corresponding eigenvalues. Now, loadings are defined as 

Yükler = Ortonormal Özvektörler⋅ (Mutlak Eigen değerleri) karekökü Burada ortonormal öz vektörler (yani Ortonormal Özvektörler terimi) bir yön sağlar ve (Mutlak Eigen değerleri) karekökü değeri sağlar.

Genellikle insanlar yüklemelerde işaretlerin önemsiz olduğunu, ancak büyüklüğünün önemli olduğunu söyler. Ancak, bir öz vektörlerin yönünü tersine çevirirsek (diğer öz vektörlerin işaretlerini olduğu gibi koruyarak) faktör puanları değişecektir. Bu nedenle daha fazla analiz önemli ölçüde etkilenecektir.

Şimdiye kadar bu belirsizliğe tatmin edici bir çözüm bulamadım.


0

Bu konuyla ilgili bazı karışıklıklar var, bu yüzden bazı gözlemler ve literatürde mükemmel bir cevabın bulunabileceği için bir işaretçi sunacağım.

İlk olarak, PCA ve faktör analizi (FA) vardır benzer. Genel olarak, ana bileşenler tanım gereği ortogonaldir, oysa faktörler - FA'deki benzer varlık - değildir. Basitçe ifade etmek gerekirse, temel bileşenler, verinin saf öz-analizinden elde edilmelerinden dolayı, faktör uzayını isteğe bağlı fakat zorunlu olarak yararlı olmayan bir şekilde kapsar. Öte yandan, faktörler tesadüfen yalnızca dik (yani ilgisiz veya bağımsız) olan gerçek dünya varlıklarını temsil eder.

Aldığımız Say ın her birinden gözlemlerini l konularda. Bu veri matris içine yerleştirilmiş olabilir D sahip ler satır ve l sütunlar. D , bir skor matrisi S'ye ve bir yükleme matrisi L'ye , D = SL olacak şekilde ayrıştırılabilir . S olacaktır s satır ve L olacak l sütun, her bir faktör sayısı olmak ikinci boyut , n . Faktör analizinin amacı, D' yi parçalamaktır.altta yatan puanları ve faktörleri ortaya çıkaracak şekilde. L'deki yüklemeler bize D' deki gözlemleri oluşturan her bir puanın oranını söylemektedir .

PCA'da L , D' nin korelasyon veya kovaryans matrisinin özvektörlerine sütun olarak sahiptir. Bunlar geleneksel olarak karşılık gelen özdeğerlerin azalan düzeninde düzenlenir. Değeri n - önemli temel bileşenlerin sayısı örneğin analizi korumak için, ve dolayısıyla sıralarının sayısı L - tipik olarak bulunabilir bir eteğindeki özdeğerler arsa veya sayısız başka yöntemden biri kullanılarak belirlenir Edebiyat. PCA'daki S sütunları n özü ana bileşenlerini oluşturur. N'nin değeri , veri kümesinin altında yatan boyutudur.

Faktör analizinin amacı, soyut bileşenleri , D = STT- 1 L olacak şekilde bir dönüşüm matrisi T kullanılarak anlamlı faktörlere dönüştürmektir . ( ST ), dönüştürülmüş puan matrisi ve ( T -1 L ) dönüştürülmüş yükleme matrisidir.

Yukarıdaki açıklama kabaca Edmund R. Malinowski'nin Kimyadaki Mükemmel Faktör Analizi'nden gösterilmesini izler . Açılış bölümlerini konuya giriş olarak tavsiye ederim.


Bu cevabın birkaç sorunu var gibi görünüyor. Öncelikle formüllerinizi kontrol edin, lütfen doğru değiller. İkincisi, FA ve PCA arasındaki farkları tartışmaya çalışıyorsunuz. Bunun için CV'de ayrı bir uzun iş parçacığımız var, şu andaki iş parçacığı özvektörlere karşı yüklerken, cevap yanlış. Üçüncüsü, FA resminiz, özellikle "FA'in amacı D'yi ayrıştırmak" veya "FA'in amacı, soyut bileşenleri anlamlı faktörlere dönüştürmektir" gibi ifadelerde çarpıtılmıştır.
ttnphns

Gönderdiğim malzemenin bu konudaki tartışmayla ilgili olduğunu düşünüyorum ve yükler ile özvektörler arasındaki ilişkinin bir açıklamasını sunmaktadır.
Matt Wenham

Konuyla ilgili araştırmam bu makalede özetlenmiştir: onlinelibrary.wiley.com/doi/10.1002/sia.740231303/full
Matt Wenham

Tamam, belki de hesabınız hala özel bir hesaptır - sunduğunuz kaynakları okuyarak söyleyemem. Yine de, PCA'daki yükler ve özvektörler arasındaki "ilişkinin" soruyla ilgili formülünde olduğunu belirtmiştim; bu nedenle “açıklamak” için pek bir şey yoktur (açıklanmalı, bunların farklı faydaları olmalıdır). Dikkat edilmesi gereken bir başka şey de, Q'nun öncelikle değil, PCA ile ilgili olduğu. Ve sonunda, her FA metodu özvektörlerle hiç ilgilenmez, zorunlu olarak yüklerle ilgilenir.
ttnphns

Özür dilerim, iki haftalık bir deneme ile Deepdyve.com üzerinden erişebilseniz de, makalemin halka açık bir sürümü olduğunu sanmıyorum. Malinowski'nin kitabının ilk bölümüne yukarıdaki linkten erişilebilir. Bu, özanalizden bahsetmeden temelleri kapsar. Kullandığım değişken - hedef faktör analizi - gibi faktör analizinin özanaliz olmadan yapılabileceğinin farkında olmadığımı itiraf etmeliyim.
Matt Wenham

-1

Bu isimlerle biraz kafam karıştı ve “Atmosferik Bilimde İstatistiksel Yöntemler” adlı kitapta aradım ve bana PCA'nın farklı Terminolojisinin bir özetini verdi, işte kitaptaki ekran görüntüleri, yardımcı olacağını umuyorum.

görüntü tanımını buraya girin

görüntü tanımını buraya girin

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.