A ve B, C ile ilişkilendirilirse, neden A ve B'nin mutlaka korelasyonu yoktur?


62

Ben ampirik olarak durum böyle biliyorum. Bu bilmeceye giren modelleri daha yeni geliştirdim. Ayrıca mutlaka evet / hayır cevabı olmadığından da şüpheleniyorum. Hem A hem de B, C ile korelasyon gösteriyorsa, bunun A ve B arasındaki korelasyon ile ilgili bazı imaları olabilir, ancak bu ima zayıf olabilir. Bu sadece bir işaret yönü olabilir ve başka bir şey olmayabilir.

İşte demek istediğim ... Diyelim ki A ve B'nin ikisinin de C ile 0,5 korelasyonu var. Buna göre, A ve B arasındaki korelasyonun 1,0 olabileceği düşünülüyor. Ayrıca 0,5 veya daha düşük olabileceğini düşünüyorum. Ancak, olumsuz olması muhtemel olmadığını düşünüyorum. Buna katılıyor musun?

Ayrıca, eğer standart Pearson Korelasyon Katsayısı mı yoksa Spearman (Sıra) Korelasyon Katsayısı mı düşünüyorsunuz? Son ampirik gözlemlerim Spearman Korelasyon Katsayısı ile ilişkiliydi.


38
Bir örnek , ve almaktır . Biz sunar ve bağımsız olarak, ancak her ikisi de ve ile (pozitif olarak Pearson) ilişkilidir . BA=XC = X + Y X Y A B CB=YC=X+YXYABC

1
Teşekkürler, bu gerçekten harika bir yorum. Kısa, ama neden böyle olmasının sebebinin özünü yakalar.
Sympa

Yanıtlar:


53

Korelasyon, çok değişkenli dağılımların matematiksel bir özelliği olduğu için, bu dağılımların istatistiksel olarak ortaya çıkmasından bağımsız olarak, bazı hesaplamalar tamamen hesaplamalar yoluyla yapılabilir.

İçin Pearson korelasyon dikkate multinormal değişkenler , , . Bunlar, çalışmak için kullanışlıdır, çünkü herhangi bir negatif olmayan kesin olmayan matris, bazı multinormal dağılımların kovaryans matrisi olduğundan, böylece varolma sorusunu çözer. Eğer köşegen üzerinde ile matrislere sadık kalırsak , kovaryans matrisinin köşegen dışı girişleri onların korelasyonları olacaktır. Korelasyonunu yazma ve olarak , korelasyonundan ve olarak ve korelasyonu ve olarakY Z 1 X Y ρ Y Z τ X Z σXYZ1XYρYZτXZσ , bunu hesaplıyoruz

  • 1+2ρστ(ρ2+σ2+τ2)0 (çünkü korelasyon matrisinin belirleyicisidir ve negatif olamaz).

  • Tüm , bu ifade eder . Başka bir deyişle: ve büyüklükte olduğunda, ve sıfır korelasyonu olmamalıdır .ρ 2 + τ 21 ρ τ X Zσ=0ρ2+τ21ρτXZ

  • Eğer , daha sonra negatif olmayan bir değer arasında ( ve tabii ki) mümkündür.σ 0 1ρ2=τ2=1/2σ01

  • Tüm , negatif değerleri izin verilebilir. Örneğin, , ile arasında herhangi bir yerde olabilir .σ ρ = τ = 1 / 2 σ - 1 / 2 1ρ2+τ2<1σρ=τ=1/2σ1/21

Bu düşünceler aslında karşılıklı korelasyonlar üzerinde bazı kısıtlamalar olduğu anlamına geliyor. Tek değişkenli dağılımlarla ilgili varsayımlara bağlı olarak (değişkenlerin gerçek dağılımlarına değil, korelasyon matrisinin yalnızca negatif olmayan kesinliğine bağlı olan kısıtlamalar) sıkılaştırılabilir. Örneğin, dağılımları zamanları görmek için (ve kanıtlamak için) bu kolay ve aynı konuma ölçekli aile içinde değil, onların korelasyon olmalı kesinlikle az boyutunda. (İspat: korelasyonu ve lineer olarak ilişkili olduğu anlamına gelir )Y 1 ± 1 X YXY1±1XY

Bildiğim kadarıyla Spearman rank korelasyon gitmek, üç trivariate gözlemleri dikkate , ve ait . Karşılıklı sıralama korelasyonları , ve . Dolayısıyla, ve rütbe korelasyonunun işareti bile, ve ile ve arasındaki ilişkilerin işaretlerinin tersi olabilir .( 2 , 3 , 1 ) ( 3 , 2 , 3 ) ( X , Y , Z ) 1 / 2 1 / 2 - 1 / 2 , Y , Z X -Y x Z(1,1,2)(2,3,1)(3,2,3)(X,Y,Z)1/21/21/2YZXYXZ


whuber, "multinormal değişkenler" nedir?
Sympa


Her zamanki gibi, çok kapsamlı bir açıklama, hak ettiğiniz "En İyi Cevap" onay işaretini alır.
Sympa

@ Gaetan Aslan Çok kibarsınız. Bu sorunun tüm cevaplarını okumaktan keyif aldım (ve hepsini işaretledim).
whuber

88

Şu an yıllık balığa gidiyorum. Balığımın yapıldığı gün ile yakaladığım balık miktarı arasında bir ilişki vardır. Ayrıca kullandığım yemin büyüklüğü ile yakaladığım balık miktarı arasında da bir ilişki var. Yemin büyüklüğü ile günün saati arasında bir ilişki yoktur.


Basil, bayıldım! Basit bir İngilizce açıklama için +1.
Sympa

En iyi. Cevap. Stats.stackexchange'de. Ever
Chris Beeley

1
Bu, korelasyonların başlangıçta düşük olduğu bir durumu açıklar, ancak korelasyonların daha yüksek olduğu durumu açıklamaz. Günün saatiyle% 80 korelasyon varsa ve yem boyutuyla% 80 korelasyon varsa, gün içinde daha büyük yem kullanacağınızı garanti edebilirim!
user35581

2
@ user35581 hayır yapamazsınız - tüm noktayı kaçırıyorsunuz. Her saat bir kez küçük yemle, bir kez de büyük yemle balık tutabiliyordu. Günün belirli bölgelerinde hala daha fazla balık yakalayabilir (% 80 korelasyon) ve daha büyük yemle daha fazla balık yakalayabilir (% 80 korelasyon) ve kullandığı yemin büyüklüğü ile günün saati arasında 0 korelasyon vardır. Günün kötü zamanını telafi etmek için yoğun olmayan zamanlarda daha sık yem tüketirse, negatif bir ilişki bile olabilir. Bu yüzden, günün saati ile yem miktarı arasındaki ilişki hakkında hiçbir şey bilmiyorsunuz.
rysqui,

2
@ üzgün, yorumum kötü bir şekilde ifade edildi, fakat yapmaya çalıştığım nokta şuydu: özellikler ve hedef arasındaki korelasyon çok yükseldiğinde, özelliklerin de birbiriyle ilişkilendirilmesi gerekiyordu. Bu nedenle, günün saati ile avın boyutu arasında mükemmel bir korelasyonunuz varsa ve yemin boyutu ile avın boyutu arasında mükemmel bir korelasyonunuz varsa, o zaman yemin boyutu ile günün saati arasında mükemmel bir korelasyona sahip olmalısınız, dolayısıyla son ifade "Gündüzleri daha büyük yem kullanıyorsunuz". Bunun bir uç dava olduğunu unutmayın!
kullanıcı35581

20

VA=AE(A)VB=BE(B)VAVBVCπ/2πVAVBVCVAVB


Çok boyutlu vektörler arasındaki açı açısından +1 korelasyonu benim için sezgiseldir.
Petrus Theron,

2
Gelecekteki okuyucuların Başvuru için, ben (resimli!) Bu geometrik cevap için daha aşağıdaki dizisindeki: talkstats.com/showthread.php/...
Jake Westfall

18

Whuber'in cevabına bir eklenti olarak: Sunulan formül

1+2ρστ(ρ2+σ2+τ2)0

aşağıdaki eşitsizliğe dönüştürülebilir (Olkin, 1981):

στ(1σ2)(1τ2)ρστ+(1σ2)(1τ2)

ρ

görüntü tanımını buraya girin


Olkin, I. (1981). Ürün moment korelasyon matrislerinde menzil kısıtlamaları. Psikometrika, 46, 469-472. doi: 10.1007 / BF02293804


Bu örneklerden bazılarının, bileşenler arasındaki olası korelasyonu sınırlayan belirli marjinal dağılımları olan çok değişkenli dağılımlar olup olmadığını kimse söyleyebilir mi? Bu, korelasyonların -1 ile 1 arasındaki aralığı tamamlayamayacağı anlamına gelir. Frechet'in bunu 1950'lerde geliştiren en az bir kişi olduğunu hatırlıyorum. Bugün literatürü araştırırken onlara artık Frechet copulas denildiğini düşünüyorum.
Michael Chernick

14

"Neden korelasyon yapmalılar?" Diye sormak daha iyi olur diye düşünüyorum. ya da belki de "Neden belirli bir korelasyona sahip olmalı?"

Aşağıdaki R kodu, x1 ve x2'nin her ikisinin de Y ile korele olduğu, ancak birbirleriyle 0 korelasyonunun olduğu bir durumu göstermektedir

x1 <- rnorm(100)
x2  <- rnorm(100)
y <- 3*x1 + 2*x2 + rnorm(100, 0, .3)

cor(x1,y)
cor(x2,y)
cor(x1,x2)

Y ile korelasyon, 0,3'ten 1'e veya her ne olursa olsun düşürülerek daha güçlü hale getirilebilir.


Ne yazık ki, ben bir R kullanıcısı değilim. Yani, yukarıdaki kodlar benim için ifade ettiklerinden daha azını benim için ifade ediyor.
Sympa

2
x1x2y=3x1+2x2yx1x2

14

İstatistiki gösteriyi benden daha uygun olanlara bırakacağım ... ama sezgisel olarak A olayının, C olayının oluşumuna katkıda bulunan bir X süreci yarattığını sezgisel olarak söyleyeceğim. O zaman A, C (X ile X) arasında bağıntılıdır. Öte yandan B, Y'yi de oluşturur, bu aynı zamanda C'yi de şekillendirir. Bu nedenle A, C ile ilişkilidir, B, C ile ilişkilidir, ancak A ve B, ilişkili değildir.


1
@Güzel. Son cümlenizin son bölümünde "A ve B'nin birbiriyle korele olmadığını " kastediyorsunuz .
suncoolsu

Evet, Nico suncoolsu düzeltmeli ... bu oldukça iyi bir açıklama. Yol Analizini kısmen açıklıyorsunuz.
Sympa

Evet, üzgünüm, harflerle karıştı;)
nico

1

Bazı sezgi isteyenler için, bir korelasyon, bir açının kosinüsü olarak görülebilir. Öyleyse, her biri bir değişkene karşılık gelen A, B ve C gibi 3 boyutlu 3 vektörü düşünelim. Soru, A ve B arasındaki açı ile B ve C arasındaki açı bilindiğinde A ve C arasındaki olası açıların aralığını belirlemektir. Bunun için herhangi bir yazılım yüklemeden çevrimiçi bir araçla oynayabilirsiniz. Sadece http://www.montefiore.ulg.ac.be/~pierard/chained_correlations.php sayfasına gidin.


0

Bir örnek ele alalım:

A={x1,x2,x3,x4,x5,x6,x7,x8,x9}

B={x1,x2,x3,0,0,0,0,0,0}

C={0,0,0,x4,x5,x6,0,0,0}

Bazı x için, A ve B anlamlı bir korelasyona sahip olacak, benzer şekilde A ve C ayrıca anlamlı bir korelasyona sahip olacak, ancak B ve C arasındaki korelasyon önemli olmayacaktır.

Bu nedenle, A ve B bağıntılıysa ve A ve C bağıntılıysa, B ve C'nin de korele olduğu kesin değildir.

Not: Derinlemesine anlamak için, lütfen bu örneği büyük veriler üzerinde düşünün.


BCx1x6ABCx1x9

Abhishek Anand cevabı konusunda rahatım çünkü sonuçta her şey bir dereceye kadar her şeyle ilişkili. Ve istatistiksel olarak anlam açısından kıyaslama şeklini seviyorum. Bu çerçeveyi kullandığınızda, A ve B'nin C ile istatistiksel olarak anlamlı bir şekilde korelasyon göstermesi durumunda, A veya B'nin, istatistiksel olarak anlamlı bir şekilde ilişkilendirilemeyeceği açıktır (asıl sorumun asıl çerçevesini kullanarak). Havalandırma şemalarının bu kavramın mükemmel bir görsel açıklaması için yapabileceğini düşünüyorum.
Sympa

@whuber Sana katılıyorum. Bunu açıklayan sadece bir örnek, neden gerekli olmadığını
Abhishek Anand

Sorun değil - ama bu vektörler arasındaki korelasyonun ne olduğu konusunda yanlış bir fikriniz var gibi görünüyor. Bu vektörlerin korelasyon katsayıları hakkında yaptığınız hiçbir ifade genellikle doğru değildir.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.