Burada olduğunu düşündüğüm, tüm değişkenlerin birbirleri ile pozitif korelasyonlu olması. Bu durumda, 1. PC genellikle tüm değişkenlerin ortalamasına çok yakındır. Tüm değişkenler tam olarak aynı korelasyon katsayısı ile pozitif korelasyon gösteriyorsa , 1. PC burada açıkladığım gibi tüm değişkenlerin ortalaması ile tam olarak orantılıdır: Tüm değişkenlerin ortalamasını almak PCA'nın ham bir formu olarak görülebilir mi?c
Bu basit durumda, aslında sorduğunuz ilişkiyi matematiksel olarak türetebilirsiniz. Şu şekilde görünen boyutundaki korelasyon matrisini düşünün :İlk özvektörü, tüm değişkenlerin [ölçeklendirilmiş] ortalamasına karşılık gelen eşittir . Özdeğer . Elbette tüm diyagonal elemanların toplamı tarafından verilen özdeğerlerin toplamı, yani . Dolayısıyla, ilk PC tarafından açıklanan varyans oranı eşittirn × n
⎛⎝⎜⎜⎜1cccc1cccc1cccc1⎞⎠⎟⎟⎟.
(1,1,1,1)⊤/n−−√λ1=1+(n−1)c∑λi=nR2=1n+n−1nc≈c.
Dolayısıyla bu en basit durumda, ilk PC tarafından açıklanan varyans oranı ortalama korelasyon ile% 100 ilişkilidir ve büyük için yaklaşık olarak buna eşittir. Bu, komploda gördüğümüz şeydir.n
Büyük matrisler için, korelasyon tam olarak aynı olmasa bile bu sonucun yaklaşık olarak geçerli olacağını umuyorum.
Güncelleme. Söz konusu arka şekil kullanarak, bir hatta tahmin etmek için deneyin olduğunu fark ile . Biz alırsak ve , o zaman elde . OP, verilerin bir "DAX hisse senedi endeksi" olduğunu söyledi; googling, görünüşe göre değişkenten oluştuğunu görüyoruz . Kötü bir maç değil.nn=(1−c)/(R2−c)c=0.5R2−c=0.02n=2530