Neden X ve XY rastgele değişkenleri arasındaki korelasyon katsayısı 0.7 olma eğilimindedir?


49

Alındığı Tıbbi Araştırma Pratik İstatistik Douglas Altman sayfa 285 yazıyor:

... herhangi iki miktar X ve Y için, X, XY ile ilişkilendirilecektir. Gerçekten, X ve Y, rastgele sayılardan oluşan örnekler olsa bile, X ve XY arasındaki korelasyonun 0.7 olmasını beklerdik.

Bunu R'de denedim ve durum böyle görünüyor:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

Neden? Bunun arkasındaki teori nedir?


Hangi kısım için açıklama istiyorsun? Sadece x ve y arasındaki bilinen korelasyon ve sonuçta x ve xy arasındaki kovaryans nedeniyle ortaya çıkan korelasyon için basitleştirilmiş denklemi mi istiyorsunuz? Yoksa neden burada herhangi bir kovaryans olduğunu bilmek ister misiniz?
John

Bu, herhangi bir ve için doğru mu? ve ilişkisiz olduğunu ve olduğunu varsayalım . O zaman ile korele olmayacağından şüpheleniyorum . XYXZY=XZXXY
Henry,

Yanıtlar:


69

Eğer ve olan ilintisiz eşit varyans ile rastgele değişkenler , o zaman var Sonuç olarak,XYvar ( X - Y )σ2ρX,X-Y=CoV(X,X-Y)

var(XY)=var(X)+var(Y)=var(X)+var(Y)=2σ2,cov(X,XY)=cov(X,X)cov(X,Y)bilinearity of covariance operator=var(X)00 because X and Y are uncorrelated=σ2.
n i = 1 (xi- ˉ x )((xi-yi)-( ˉ x - ˉ y ))
ρX,XY=cov(X,XY)var(X)var(XY)=σ2σ22σ2=12.
Öyleyse, örnek korelasyon ve büyük bir veri kümesi için özel bir durum olarak "rasgele sayılar" terimi, bu özelliklere sahip olan bir popülasyondan, çekilir, sonuç nüfus korelasyon değeri yakın olma eğilimindedir
i=1n(xix¯)((xiyi)(x¯y¯))i=1n(xix¯)2i=1n((xiyi)(x¯y¯))2
xxy{(xi,yi):1in}120.7071

Lütfen biraz daha açıklayabilir misinizcov(X,X)-cov(X,Y)=s^2
nostock

5
cov (X, X), var (X) için başka bir addır. cov (X, Y) = 0, çünkü X ve Y'nin ilişkisiz olduğu varsayılmaktadır (dolayısıyla kovaryans = 0).
Dilip Sarwate

58

Geometrik-istatistiksel bir açıklama.

Nerede bir "iç-dış" scatterplot yapmak düşünün konular şunlardır eksenleri ve değişken ve olan noktalar . Buna konu alanı grafiği (normal değişken alan grafiği yerine) denir . Çizmek için sadece 2 nokta olduğundan, 2 noktayı artı orijini destekleyebilecek herhangi bir iki rasgele boyut dışında böyle bir alandaki tüm boyutlar gereksizdir ve güvenli bir şekilde bırakılabilir. Ve böylece bir uçakla kaldı. Kökten noktalara vektör okları çiziyoruz: bunlar , verilerin konu alanındaki vektörler olarak ve değişkenlerimizdir .n 2 XYXY

Şimdi, eğer değişkenler merkezlenmişse, o zaman bir özne uzayda, vektörleri arasındaki açının kosinüsü korelasyon katsayısıdır . Aşağıdaki resimdeki ve vektörleri ortogonaldir: . İlişkisizlik, cevaplarında @Dilip tarafından ana hatları çizilen bir ön koşuldur.Y, r = 0XYr=0

Ayrıca ortalanmış değişkenler için, bir konu alanındaki vektör uzunlukları standart sapmalardır . Resimde, ve eşit uzunluktadırlar - eşit değişkenler de @Dilip tarafından yapılan bir önkoşuldur.YXY

değişkenini veya değişkenini çizmek için sadece okuldan beri unutmuş olduğumuz vektör toplama veya çıkarma işlemlerini kullanırız (Y vektörünü X vektörünün sonuna getirin ve çıkarma durumunda yön değiştirme, - bu gri oklarla gösterilir. Resimde, - sonra gri okun işaret ettiği yere bir vektör çizin).X + YXYX+Y

veya vektörlerinin uzunluğunun ( bu değişkenlerin standart sapması) Pythagorean teoremi ile, ve ile veya arasındaki açıların olduğu çok açıktır. 45 derece, hangi kosinüs - korelasyon -X + Y XYX+Y XX-YX+Y0.707 ...2σ2XXYX+Y0.707...

görüntü tanımını buraya girin


4
Bu yaklaşımı paylaşmak için büyük bir +1.
whuber

(+1) Bunu sunmanın çok zarif bir yolu!
Matt Krause,

Ahh ... resimleri! (+1) Aferin. :-)
kardinal

11

Burada da simetriye dayanan basit bir sezginin olduğuna inanıyorum. X ve Y aynı dağılımlara sahip ve 0 kovaryansına sahip olduklarından, X ± Y ile X arasındaki ilişki X ± Y'deki değişimin yarısını "açıklamalı"; Diğer yarısı Y. Yani R açıklanmalıdır 2 R, ≈ 0.707 1 / √2 olduğu anlamına gelir, 1/2 olmalıdır.


Bu güzel bir sezgi gibi görünüyor, ama unutmayın ki eğer , yazmak için standart yolu olacağını , değil bile bazı insanların kafası olabilir onlar cebirsel olarak eşdeğerdir. rr2=12r 1/1/21/2
dediklerinin - Monica Yeniden

Hayır, bu gerçekten daha standart değil. (Kanıt ihtiyacınız varsa, en üstteki cevaba bakın. Zaten oy veren 38 kişi aynı nota ile
başa çıkmadı

Ben o 38 biri ;-); Asıl soru, cebiri oldukça zayıf olan biri en kolay takip edebilecek olan nedir? Eğer , olduğunu görmek daha kolaydır . r = r2=1/2r=1/2
dediklerinin - Monica Yeniden

3

İşte neden burada bir korelasyon olduğunu düşünmenin basit bir yolu.

İki dağıtım çıkarırken neler olduğunu hayal edin. Eğer x değeri düşükse, ortalama olarak, x - yx değerinin yüksek olduğundan daha düşük bir değer olacaktır. X arttıkça x - y, ortalama olarak artar ve bu nedenle pozitif bir korelasyon ortaya çıkar.


4
İfadenizin her zaman doğru olduğunu sanmıyorum "Matematiksel bir ilişki olduğunda iki rasgele dağılım arasında her zaman bir korelasyon olacak." eg x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$
curious_cat 6'13

4
@curious_cat: Ya da belki daha da uyandırıcı olmak için yhepsini bir kenara bırakın . :-)
kardinal
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.