Neden X ve XY rastgele değişkenleri arasındaki korelasyon katsayısı 0.7 olma eğilimindedir?

49

Alındığı Tıbbi Araştırma Pratik İstatistik Douglas Altman sayfa 285 yazıyor:

... herhangi iki miktar X ve Y için, X, XY ile ilişkilendirilecektir. Gerçekten, X ve Y, rastgele sayılardan oluşan örnekler olsa bile, X ve XY arasındaki korelasyonun 0.7 olmasını beklerdik.

Bunu R'de denedim ve durum böyle görünüyor:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

Neden? Bunun arkasındaki teori nedir?

correlation random-variable intuition

— Stokta yok
kaynak

Hangi kısım için açıklama istiyorsun? Sadece x ve y arasındaki bilinen korelasyon ve sonuçta x ve xy arasındaki kovaryans nedeniyle ortaya çıkan korelasyon için basitleştirilmiş denklemi mi istiyorsunuz? Yoksa neden burada herhangi bir kovaryans olduğunu bilmek ister misiniz?

— John

Bu, herhangi bir ve için doğru mu? ve ilişkisiz olduğunu ve olduğunu varsayalım . O zaman ile korele olmayacağından şüpheleniyorum .

X

$X$

Y

$Y$

X

$X$

Z

$Z$

Y = X - Z

$Y=X-Z$

X

$X$

X - Y

$X-Y$

— Henry,

69

Eğer ve olan ilintisiz eşit varyans ile rastgele değişkenler , o zaman var Sonuç olarak, $X$ $Y$ $\sigma^2$

\begin{aligned} var (X - Y) & = var (X) + var (- Y) \\ = var (X) + var (Y) \\ = 2 σ^{2}, \\ cov (X, X - Y) & = cov (X, X) - cov (X, Y) & bilinearity of covariance operator \\ = var (X) - 0 & 0 because X and Y are uncorrelated \\ = σ^{2} . \end{aligned}

$\begin{align} \operatorname{var}(X-Y) &= \operatorname{var}(X) + \operatorname{var}(-Y)\\ &= \operatorname{var}(X) + \operatorname{var}(Y)\\ &=2\sigma^2,\\ \operatorname{cov}(X, X-Y) &= \operatorname{cov}(X,X) - \operatorname{cov}(X,Y) & \text{bilinearity of covariance operator}\\ &= \operatorname{var}(X) - 0 & 0 ~\text{because}~X ~\text{and}~ Y ~\text{are uncorrelated}\\ &= \sigma^2. \end{align}$

ρ_{X, X - Y} = \frac{cov (X, X - Y)}{\sqrt{var (X) var (X - Y)}} = \frac{σ^{2}}{\sqrt{σ^{2} \cdot 2 σ^{2}}} = \frac{1}{\sqrt{2}} .

$\rho_{X,X-Y} = \frac{\operatorname{cov}(X, X-Y)}{\sqrt{\operatorname{var}(X)\operatorname{var}(X-Y)}}= \frac{\sigma^2}{\sqrt{\sigma^2\cdot2\sigma^2}} = \frac{1}{\sqrt{2}}.$ Öyleyse, örnek korelasyon ve büyük bir veri kümesi için özel bir durum olarak "rasgele sayılar" terimi, bu özelliklere sahip olan bir popülasyondan, çekilir, sonuç nüfus korelasyon değeri yakın olma eğilimindedir

\frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) ((x_{i} - y_{i}) - (\bar{x} - \bar{y}))}{\sqrt{\sum_{i = 1}^{n} {(x_{i} - \bar{x})}^{2} \sum_{i = 1}^{n} {((x_{i} - y_{i}) - (\bar{x} - \bar{y}))}^{2}}}

$\frac{\sum_{i=1}^n\left(x_i - \bar{x}\right) \left((x_i-y_i) - (\bar{x}-\bar{y})\right)}{ \sqrt{\sum_{i=1}^n\left(x_i - \bar{x}\right)^2 \sum_{i=1}^n\left((x_i-y_i) - (\bar{x}-\bar{y})\right)^2}}$

x

$x$

x - y

$x-y$

{(x_{i}, y_{i}) : 1 \leq i \leq n}

$\{(x_i,y_i)\colon 1 \leq i \leq n\}$

\frac{1}{\sqrt{2}} \approx 0.7071 \dots

$\frac{1}{\sqrt{2}} \approx 0.7071\ldots$

— Dilip Sarwate
kaynak

Lütfen biraz daha açıklayabilir misinizcov(X,X)-cov(X,Y)=s^2

— nostock

5

cov (X, X), var (X) için başka bir addır. cov (X, Y) = 0, çünkü X ve Y'nin ilişkisiz olduğu varsayılmaktadır (dolayısıyla kovaryans = 0).

— Dilip Sarwate

58

Geometrik-istatistiksel bir açıklama.

Nerede bir "iç-dış" scatterplot yapmak düşünün konular şunlardır eksenleri ve değişken ve olan noktalar . Buna konu alanı grafiği (normal değişken alan grafiği yerine) denir . Çizmek için sadece 2 nokta olduğundan, 2 noktayı artı orijini destekleyebilecek herhangi bir iki rasgele boyut dışında böyle bir alandaki tüm boyutlar gereksizdir ve güvenli bir şekilde bırakılabilir. Ve böylece bir uçakla kaldı. Kökten noktalara vektör okları çiziyoruz: bunlar , verilerin konu alanındaki vektörler olarak ve değişkenlerimizdir . $n$ $2$ $X$ $Y$ $X$ $Y$

Şimdi, eğer değişkenler merkezlenmişse, o zaman bir özne uzayda, vektörleri arasındaki açının kosinüsü korelasyon katsayısıdır . Aşağıdaki resimdeki ve vektörleri ortogonaldir: . İlişkisizlik, cevaplarında @Dilip tarafından ana hatları çizilen bir ön koşuldur. $X$ $Y$ $r=0$

Ayrıca ortalanmış değişkenler için, bir konu alanındaki vektör uzunlukları standart sapmalardır . Resimde, ve eşit uzunluktadırlar - eşit değişkenler de @Dilip tarafından yapılan bir önkoşuldur. $X$ $Y$

değişkenini veya değişkenini çizmek için sadece okuldan beri unutmuş olduğumuz vektör toplama veya çıkarma işlemlerini kullanırız (Y vektörünü X vektörünün sonuna getirin ve çıkarma durumunda yön değiştirme, - bu gri oklarla gösterilir. Resimde, - sonra gri okun işaret ettiği yere bir vektör çizin). $X-Y$ $X+Y$

veya vektörlerinin uzunluğunun ( bu değişkenlerin standart sapması) Pythagorean teoremi ile, ve ile veya arasındaki açıların olduğu çok açıktır. 45 derece, hangi kosinüs - korelasyon - $X-Y$ $X+Y$ $\sqrt{2\sigma^2}$ $X$ $X-Y$ $X+Y$ $0.707...$

görüntü tanımını buraya girin

— ttnphns
kaynak

4

Bu yaklaşımı paylaşmak için büyük bir +1.

— whuber

(+1) Bunu sunmanın çok zarif bir yolu!

— Matt Krause,

Ahh ... resimleri! (+1) Aferin. :-)

— kardinal

11

Burada da simetriye dayanan basit bir sezginin olduğuna inanıyorum. X ve Y aynı dağılımlara sahip ve 0 kovaryansına sahip olduklarından, X ± Y ile X arasındaki ilişki X ± Y'deki değişimin yarısını "açıklamalı"; Diğer yarısı Y. Yani R açıklanmalıdır ² R, ≈ 0.707 1 / √2 olduğu anlamına gelir, 1/2 olmalıdır.

— denn333
kaynak

Bu güzel bir sezgi gibi görünüyor, ama unutmayın ki eğer , yazmak için standart yolu olacağını , değil bile bazı insanların kafası olabilir onlar cebirsel olarak eşdeğerdir.

r^{2} = \frac{1}{2}

$r^2=\frac 1 2$

r

$r$

\sqrt{1 / 2}

$\sqrt{1/2}$

1 / \sqrt{2}

$1/\sqrt 2$

— dediklerinin - Monica Yeniden

Hayır, bu gerçekten daha standart değil. (Kanıt ihtiyacınız varsa, en üstteki cevaba bakın. Zaten oy veren 38 kişi aynı nota ile

— başa çıkmadı

Ben o 38 biri ;-); Asıl soru, cebiri oldukça zayıf olan biri en kolay takip edebilecek olan nedir? Eğer , olduğunu görmek daha kolaydır .

r^{2} = 1 / 2

$r^2=1/2$

r = \sqrt{1 / 2}

$r=\sqrt{1/2}$

— dediklerinin - Monica Yeniden

3

İşte neden burada bir korelasyon olduğunu düşünmenin basit bir yolu.

İki dağıtım çıkarırken neler olduğunu hayal edin. Eğer x değeri düşükse, ortalama olarak, x - yx değerinin yüksek olduğundan daha düşük bir değer olacaktır. X arttıkça x - y, ortalama olarak artar ve bu nedenle pozitif bir korelasyon ortaya çıkar.

— John
kaynak

4

İfadenizin her zaman doğru olduğunu sanmıyorum "Matematiksel bir ilişki olduğunda iki rasgele dağılım arasında her zaman bir korelasyon olacak." eg x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$

— curious_cat 6'13

4

@curious_cat: Ya da belki daha da uyandırıcı olmak için yhepsini bir kenara bırakın . :-)

— kardinal