İlk bilgisayarım tarafından açıklanan varyans miktarı neden ortalama ikili korelasyona bu kadar yakın?


9

İlk temel bileşen (ler) ile korelasyon matrisindeki ortalama korelasyon arasındaki ilişki nedir?

Örneğin, ampirik bir uygulamada, ortalama korelasyonun, birinci ana bileşenin (ilk özdeğer) varyansının toplam varyansa (tüm öz değerlerin toplamı) oranıyla neredeyse aynı olduğunu gözlemliyorum.

Matematiksel bir ilişki var mı?

Ampirik sonuçların şeması aşağıdadır. Korelasyonun, 15 günlük yuvarlanma penceresi üzerinde hesaplanan DAX hisse senedi endeksi bileşen getirileri arasındaki ortalama korelasyon olduğu ve açıklanan varyans, 15 günlük yuvarlanma penceresi üzerinde de hesaplanan birinci ana bileşen tarafından açıklanan varyansın payıdır.

Bu CAPM gibi ortak bir risk faktörü modeli ile açıklanabilir mi?

resim açıklamasını buraya girin


1
Korelasyonların çoğu negatif veya sıfıra yakın olduğunda ne olur ? Örneğin, sıfır korelasyonlu bazı iki değişkenli normal veriler oluşturun. Neden varyans oranınız ile sıfır korelasyon arasında herhangi bir ilişki olmasını beklersiniz?
whuber

Yanıtlar:


6

Ortalama korelasyon ile 1. PC'nin özdeğer arasındaki ilişkinin var olduğuna inanıyorum ama benzersiz değil. Bunu çıkarabilmek için bir matematikçi değilim, ama en azından birinin sezgisinin veya düşüncesinin gelişebileceği başlangıç ​​noktasını gösterebilirim.

Standartlaştırılmış değişkenleri, onu yerleştiren öklid uzayında vektörler olarak çizerseniz (ve bu, eksenlerin gözlem olduğu azaltılmış alan), korelasyon iki vektör arasındaki kosinüstür .

resim açıklamasını buraya girin

Ve vektörlerin tümü birim uzunluğunda olduğundan (standardizasyona bağlı olarak) kosinüsler, vektörlerin birbiri üzerindeki izdüşümleridir (soldaki resimde üç değişkenle gösterildiği gibi). 1 PC, bunun üzerine kare projeksiyonlar toplamını maksimize bu alanda böyle bir çizgidir bir 'ler denilen yüklemelere; ve bu toplam 1. özdeğerdir.

Böylece, soldaki üç projeksiyonun ortalaması ile sağdaki üç kare projeksiyonun toplamı (veya ortalaması) arasındaki ilişkiyi kurduğunuzda, ortalama korelasyon ve özdeğer arasındaki ilişki hakkındaki sorunuzu cevaplarsınız.


6

Burada olduğunu düşündüğüm, tüm değişkenlerin birbirleri ile pozitif korelasyonlu olması. Bu durumda, 1. PC genellikle tüm değişkenlerin ortalamasına çok yakındır. Tüm değişkenler tam olarak aynı korelasyon katsayısı ile pozitif korelasyon gösteriyorsa , 1. PC burada açıkladığım gibi tüm değişkenlerin ortalaması ile tam olarak orantılıdır: Tüm değişkenlerin ortalamasını almak PCA'nın ham bir formu olarak görülebilir mi?c

Bu basit durumda, aslında sorduğunuz ilişkiyi matematiksel olarak türetebilirsiniz. Şu şekilde görünen boyutundaki korelasyon matrisini düşünün :İlk özvektörü, tüm değişkenlerin [ölçeklendirilmiş] ortalamasına karşılık gelen eşittir . Özdeğer . Elbette tüm diyagonal elemanların toplamı tarafından verilen özdeğerlerin toplamı, yani . Dolayısıyla, ilk PC tarafından açıklanan varyans oranı eşittirn×n

(1cccc1cccc1cccc1).
(1,1,1,1)/nλ1=1+(n1)cλi=n
R2=1n+n1ncc.

Dolayısıyla bu en basit durumda, ilk PC tarafından açıklanan varyans oranı ortalama korelasyon ile% 100 ilişkilidir ve büyük için yaklaşık olarak buna eşittir. Bu, komploda gördüğümüz şeydir.n

Büyük matrisler için, korelasyon tam olarak aynı olmasa bile bu sonucun yaklaşık olarak geçerli olacağını umuyorum.


Güncelleme. Söz konusu arka şekil kullanarak, bir hatta tahmin etmek için deneyin olduğunu fark ile . Biz alırsak ve , o zaman elde . OP, verilerin bir "DAX hisse senedi endeksi" olduğunu söyledi; googling, görünüşe göre değişkenten oluştuğunu görüyoruz . Kötü bir maç değil.nn=(1c)/(R2c)c=0.5R2c=0.02n=2530

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.