Benim yorumumdan bahsetmek için, kovaryansı iki değişken arasındaki (ortalama) eş varyasyonun bir ölçütü olarak kullandım, ve diyelim .xy
Temel formülü hatırlamakta fayda vardır (açıklanması basit, giriş dersinin matematiksel beklentileri hakkında konuşmaya gerek yoktur):
cov(x,y)=1n∑i=1n(xi−x¯)(yi−y¯)
Böylece, her bir gözlemin kovaryansa olumlu veya olumsuz yönde katkıda bulunabileceğini açıkça görüyoruz ki bağlı olarak, ve . Burada büyüklükten bahsetmediğimi, sadece gözlemin katkısının işareti olduğuna dikkat edin.(xi,yi)x¯y¯
Bu, aşağıdaki diyagramlarda gösterdiğim şey. Yapay veriler doğrusal bir model kullanılarak üretildi (sol, ; sağ, , burada sıfır ortalama ve olan bir gauss dağılımından çekildi , ve aralığında bir düzgün dağılımdan .y=1.2x+εy=0.1x+εεSD=2x[0,20]
Dikey ve yatay çubuklar , sırasıyla ve ortalamasını temsil eder . Bu, kökenden “bireysel gözlemlere bakmak” yerine, den yapabileceğimiz anlamına gelir . Bu sadece x ve y eksenindeki bir çeviriye karşılık gelir. Bu yeni koordinat sisteminde, sağ üst ya da sol alt kadranda bulunan her gözlem kovaryansa olumlu katkıda bulunurken, diğer iki kadranda bulunan gözlemler buna olumsuz katkıda bulunur. İlk durumda (solda), kovaryans 30.11'e eşittir ve dört çeyrekte dağılım aşağıda verilmiştir:xy(0,0)(x¯,y¯)
+ -
+ 30 2
- 0 28
Açıkça, ortalamalarının üstünde olduğunda, karşılık gelen (wrt. ). 2 boyutlu puan bulutunun şeklindeki göze çarpma, değerleri arttıkça yükselme eğilimindedir. (Ancak kovaryans ve regresyon çizgisinin eğimi arasında açık bir ilişki olduğu gerçeğini de kullanabileceğimizi unutmayın, yani .)xiyiy¯xyb=Cov(x,y)/Var(x)
İkinci durumda (sağ, aynı ), kovaryans eşittir ve kadranlar arasındaki dağılım aşağıda gösterildiği gibi daha "homojendir":xi
+ -
+ 18 14
- 12 16
Başka bir deyişle, ve 'nin aynı yönde artan bir vaka sayısı vardır . onların araçları.xiyi
Kovaryansı veya ölçeklendirerek azaltabileceğimizi unutmayın . Sol panelde, (veya ) kovaryansı on kat (3.01) azalır. Ölçüm birimleri ve ve yayılımı (araçlarına göre) kovaryansın değerini mutlak terimlerle yorumlamayı zorlaştırdığından, genellikle her iki değişkeni de standart sapmalarına göre ölçeklendirir ve korelasyon katsayısını elde ederiz. Bu, dağılım grafiğimizi olarak yeniden ortalamanın yanı sıray ( x / 10 , y ) ( x , y / 10 ) x y ( x , y ) ( ˉ x , ˉ y ) x yxy(x/10,y)(x,y/10)xy(x,y)(x¯,y¯)ayrıca x ve y birimini standart sapma cinsinden ölçeklendiriyoruz, bu da ve arasındaki lineer değişkenliğin daha yorumlanabilir bir ölçüsünü oluşturuyor .xy