Kabul edilen cevabın tehlikeli yanıltıcı olabileceğini düşünüyorum (-1). OP'de birbirine karışan en az dört farklı soru var. Onları birbiri ardına ele alacağım.
- S1. Belirli bir PC'nin varyansının ne kadarı belirli bir orijinal değişkenle açıklanır? Belirli bir orijinal değişkenin varyansının ne kadarı belirli bir bilgisayar tarafından açıklanır?
Bu iki soru eşdeğerdir ve cevap, değişken ile PC arasındaki korelasyon katsayısının karesi tarafından verilir . Eğer korelasyonlar üzerinde PCA yapılırsa, korelasyon katsayısı yüklerin karşılık gelen elemanı tarafından verilir ( buraya bakınız ) . PC , korelasyon matrisinin bir özvektörü ve karşılık gelen özdeğer . Bir yükleri vektör verilir . Elemanları bu bilgisayarın ilgili orijinal değişkenlerle korelasyonudur. r ı V ı s ı L i L i = ( s i ) 1 / 2 V ir2riVisiLiLi=(si)1/2Vi
Not özvektörler o ve yüklemeler iki farklı şeydir! R'de, özvektörlere kafa karıştırıcı bir şekilde "yükleme" denir; dikkatli olunmalıdır: öğeleri istenen korelasyonlar değildir . [Bu konuda kabul edilen cevap ikisini karıştırıyor.]ViLi
Ek olarak, PCA kovaryanslarda (korelasyonlarda değil) yapılırsa, yüklemeler de korelasyonları değil kovaryansları verecektir. Korelasyonları elde etmek için, PCA'yı takip ederek bunları manuel olarak hesaplamak gerekir. [Şu anda kabul edilen cevap bu konuda net değil.]
- S2. Belirli bir orijinal değişkenin varyansının ne kadarı belirli bir PC alt kümesi tarafından açıklanır? Açıklamak için bu altkümeyi nasıl seçersiniz ? Örneğin varyansın ?80%
PC'ler dikey (yani ilişkisiz) olduğundan, genel değerini elde etmek için tek tek değerleri eklenebilir (bkz. Q1) .R 2r2R2
Bir alt küme seçmek için , istenen açıklanmış varyans miktarına ( ) ulaşılana kadar belirli bir orijinal değişkenle en yüksek korelasyonlara ( ) sahip bilgisayarlar eklenebilir .R 2r2R2
- Q3. Belirli bir bilgisayarın varyansının ne kadarı belirli bir orijinal değişken alt kümesi ile açıklanır? Açıklamak için bu altkümeyi nasıl seçersiniz ? Örneğin varyansın ?80%
Bu sorunun cevabı PCA tarafından otomatik olarak verilmez! Örneğin, tüm orijinal değişkenler ikili ile çok güçlü bir şekilde korelasyon içinde ise, ilk PC ile tüm değişkenler arasındaki korelasyonlar civarında olacaktır . Bu sayıları, bu bilgisayarın beş orijinal değişkenle açıklanan varyans oranını hesaplamak için eklenemez (bu, saçma bir sonuç ). Bunun yerine, bu bilgisayarı bu değişkenler üzerinde gerilemek ve çoklu değerini elde etmek gerekir .r = 0,9 R 2 R, 2 = 0.9 ⋅ 0.9 ⋅ 5 > 1 R, 2r=0.9r=0.9r2R2=0.9⋅0.9⋅5>1R2
@FrankHarrell (+1) tarafından verilen varyans miktarını açıklayan bir alt kümenin nasıl seçileceği önerildi.