Bu veri kümesinin neden kovaryansı yok?


8

Kovaryansın nasıl çalıştığına ilişkin anlayışım, ilişkili verilerin bir şekilde yüksek bir kovaryansa sahip olması gerektiğidir. Verilerimin ilişkili göründüğü (dağılım grafiğinde gösterildiği gibi) bir durumla karşılaştım ancak kovaryans sıfıra yakın. İlişkilendirildikleri takdirde verilerin kovaryansı nasıl sıfır olabilir?

import numpy as np
x1 = np.array([ 0.03551153,  0.01656052,  0.03344669,  0.02551755,  0.02344788,
        0.02904475,  0.03334179,  0.02683399,  0.02966126,  0.03947681,
        0.02537157,  0.03015175,  0.02206443,  0.03590149,  0.03702152,
        0.02697212,  0.03777607,  0.02468797,  0.03489873,  0.02167536])
x2 = np.array([ 0.0372599 ,  0.02398212,  0.03649548,  0.03145494,  0.02925334,
        0.03328783,  0.03638871,  0.03196318,  0.03347346,  0.03874528,
        0.03098697,  0.03357531,  0.02808358,  0.03747998,  0.03804655,
        0.03213286,  0.03827639,  0.02999955,  0.0371424 ,  0.0279254 ])
print np.cov(x1, x2)

array([[  3.95773132e-05,   2.59159589e-05],
       [  2.59159589e-05,   1.72006225e-05]])

resim açıklamasını buraya girin


4
İpucu: Korelasyona baktığınızda ne olur? Kovaryans ve korelasyon arasındaki fark nedir?
17'de

2
Belirli bir ölçekte küçük veya birbirine yakın görünen sayıları ölçüyorsanız, aralarındaki farklar da küçük görünecek ve farklılıkların ürünleri daha küçük görünecektir. Tüm verilerinizi ile çarpmayı deneyin1000ve sonra hesaplamaları yeniden yapmak; kovaryans olmalı1000000kez büyük
Henry

Yanıtlar:


14

Kovaryansın büyüklüğü, verilerin büyüklüğüne ve bu veri noktalarının bu verinin ortalaması etrafında ne kadar yakın dağıldığına bağlıdır. Formüle baktığınızda kolayca görebilirsiniz:

cÖvx,y=Σ(xben-x¯)(yben-y¯)n-1

Sizin durumunuzda, x1ve x2verilerinin sapması şu anlama gelir x1ve x2şunları gösterir:

x1-mean(x1)
 [1]  0.006043341 -0.012907669  0.003978501 -0.003950639 -0.006020309 -0.000423439  0.003873601
 [8] -0.002634199  0.000193071  0.010008621 -0.004096619  0.000683561 -0.007403759  0.006433301
[15]  0.007553331 -0.002496069  0.008307881 -0.004780219  0.005430541 -0.007792829

x2-mean(x2)
 [1]  0.0039622385 -0.0093155415  0.0031978185 -0.0018427215 -0.0040443215 -0.0000098315
 [7]  0.0030910485 -0.0013344815  0.0001757985  0.0054476185 -0.0023106915  0.0002776485
[13] -0.0052140815  0.0041823185  0.0047488885 -0.0011648015  0.0049787285 -0.0032981115
[19]  0.0038447385 -0.0053722615

Şimdi bu iki vektörü birbiriyle çarparsanız, oldukça küçük sayılar elde edersiniz:

(x1-mean(x1)) * (x2-mean(x2))
 [1] 2.394516e-05 1.202419e-04 1.272252e-05 7.279927e-06 2.434807e-05 4.163041e-09 1.197349e-05
 [8] 3.515290e-06 3.394159e-08 5.452315e-05 9.466023e-06 1.897897e-07 3.860380e-05 2.690611e-05
[15] 3.586993e-05 2.907425e-06 4.136268e-05 1.576570e-05 2.087901e-05 4.186512e-05

Şimdi toplamı al ve n-1 ve kovaryansınız var:

sum((x1-mean(x1)) * (x2-mean(x2))) / (length(x1)-1)
[1] 2.591596e-05

Kovaryansın büyüklüğünün, nasıl x1ve x2birlikte değiştiğinin gücü hakkında fazla bir şey söylememesinin nedeni budur . Kovaryansın standartlaştırılması (veya normalleştirilmesi), yani standart sapmanın x1ve x2(kovaryansa çok benzer, yani 2.609127e-05) standart ürüne bölünmesi ,

r=cÖvx,ysxsy=Σ(x1-x¯)(yben-y¯)(n-1)sxsy

yüksek korelasyon katsayısını elde edersiniz, r=0.99, bu da planınızda görebileceklerinizi doğrular.


7

Arsadaki hızlı bir bakışta neler görülebileceğinden ve bazı mantıklılık kontrollerinden bahsedelim (bunlar, veriye bakarken elbette yapılabilecek şeyler, sadece birkaç temel gerçekle silahlandırılıyor):

Ancak, ilk önce n- standart sapmanın denominator versiyonu aralığın yarısını aşamaz ( n-1 payda sürümü olabilir, ama çok fazla değil birkaç gözlem ile).

Her iki değişkenin aralıkları 0,02 (kabaca) düzeyindedir, bu nedenle varyanslar, karenin veya karenin yaklaşık yarısından fazla olmamalıdır. 10-4.

Sonuç olarak, çıktınızdaki varyansların gözlenen değerleri mantıklıdır; ikisi de bundan daha az, ama onda biri kadar.

Kovaryansın mutlak değeri, iki varyansın geometrik ortalamasından daha fazla olmamalıdır (aksi takdirde korelasyon 1'i aşabilir). Dolayısıyla kovaryansın mutlak değeri aşılmamalıdır14 ürün yelpazesi.

Yani her iki değişkenin aralığı da 0.02, mutlak kovaryansın aşılmasını bekleyemezdik (0.02)2/4=10-4.

Bu çok kaba analizden, hiçbir şey şaşırtıcı görünmüyor.

Daha kesin bir analiz, hesaplamaları daha doğru aralıklar kullanarak yapmaktan ve daha sonra marjinal dağılımların şekillerini düşünmekten gelir:
aralıklar hemen altında0.023 ve 0.015 sırasıyla, kovaryans aşmamalıdır 8.6x10-5ancak marjinal dağılımlar neredeyse simetrik-iki noktalı dağılımlar olmadığından, bundan biraz daha az olmalıdır.

Gerçekten de, üniformadan çok uzakta olmadıklarını söylesek, kovaryans, 1/4 yerine ürünün 1 / 12'sine yakın bir şeyle sınırlı olacaktır - yani, bu aralıklarla kabaca tekdüze değişimler için yaklaşık olarak daha az olacaktır. 2.9x10-5- fakat korelasyon yüksek olduğu için çok daha az değil.
[Bu değişkenler tek tip değil - eğriltilmiş durumdalar - ama şimdiki amaçlarımız için yeterince yakın.]

Yani, sadece her değişkenin aralığına ve çizimdeki marjinal dağılımların ve korelasyonun kaba duygusuna bakarak, kovaryansın biraz daha az olmasını beklerdim. 2.9x10-5. Aslında hakkında2.6x10-5.

(İki önemli rakamdan başlayarak hızlı bir zarf arkası hesaplaması için o kadar da kötü değil!)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.