Neden sıfır korelasyonun mutlaka bağımsızlık anlamına gelmediği

41

Eğer iki değişken 0 korelasyona sahipse, neden mutlaka bağımsız değiller? Özel koşullar altında sıfır ilişkili değişkenler bağımsız mı? Mümkünse, oldukça teknik bir açıklama değil sezgisel bir açıklama arıyorum.

correlation independence

— galip
kaynak

10

Korelasyon doğrusal bağımlılığın bir ölçüsüdür (ilişkilendirme). iki rastgele değişkenin ilişkisiz olması ancak doğrusal olmayan bağımlı olması mümkündür.

— Mark L. Stone,

Sezgisel açıklama -> math.stackexchange.com/questions/444408/…

— Siddhesh

6

Sıfır korelasyon, değişkenler çok değişkenli normalse bağımsızlığı ifade eder. Bu, normal olan her değişkenle aynı değildir - buraya , sıfır korelasyonlu fakat bağımlı normal değişkenlerin

— saçılma noktaları için bakınız

1

Korelasyon (niteliksiz), monotonik bağımlılığın konu olduğu sıra korelasyonu, vb. İçerebilir.

— Nick Cox

1

Genel olarak, Vikipedi "uzaklık korelasyonunu" bağımsızlığın bir ölçüsü olarak görmenizi tavsiye ederim.

— ttnphns

41

Korelasyon, verilen iki değişken arasındaki doğrusal ilişkiyi ölçer ve başka bir ilişkilendirme biçimini tespit etme zorunluluğu yoktur.

Dolayısıyla, bu iki değişken diğer doğrusal olmayan yollarla ilişkilendirilebilir ve korelasyon bağımsız durumdan ayırt edemez.

$X$ $P(X=x)=1/3$ $x=-1, 0, 1$ $Y=X^2$

— Marcelo Ventura
kaynak

1

İlişkisiz fakat rastlantısal olarak değişmeyen varyansların ilişkisiz olduğuna dair kanıtlar arıyordum, ancak sorumun doğrudan cevaplarından hiçbiri sezgisel gerçekleri ortaya çıkarmadı. Diğer yandan cevabınız, bana düşünmek için çok iyi bir açı veriyor, çok teşekkürler!

— stucash

1

@stucash benim zevkim! Öğrendiğim eski bir sayaç örneğiydi

— Marcelo Ventura

23

"Korelasyon" kelimesinin kullanımında yaygın olarak farklı varsayımlara ve anlamlara sahip olmasının basit bir nedeni nedeniyle genel bir titizlik eksikliği vardır. En basit, en gevşek ve en yaygın kullanım, statik bir rastgele değişken çifti çifti arasında belli belirsiz bir ilişki, ilişki veya bağımsızlık eksikliğidir.

Burada adı geçen varsayılan metrik, genellikle sürekli olarak dağıtılan iki değişken arasında ikili, doğrusal bir ilişkinin standart bir ölçüsü olan Pearson korelasyonudur . Biri Pearson sık suistimallerin bir yüzdesi olarak rapor etmektir. Bu kesinlikle bir yüzde değil. Pearson korelasyon r arasında, -1.0 ve +1,0 burada 0 aracı bir aralıkları doğrusal ilişki. Pearson korelasyonunu varsayılan olarak kullanmanın çok yaygın olarak kabul edilemeyen diğer hususları , varsayılan olarak aralıklı olarak değişkenlik gerektiren değişkenlik gerektiren oldukça katı, sağlam olmayan bir doğrusallık ölçütü olmasıdır (bkz. Paul Embrechts 'in mükemmel makalesi).Risk Yönetiminde Korelasyon ve Bağımlılık: Buradaki Özellikler ve Tuzaklar : https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf ).

Embrechts, bağımlılık hakkında, bu yapının altında yatan yapının ve geometrik şeklinin varsayımları ile başlayan birçok yanlış varsayım bulunduğunu not eder:

Bu yanlışlıklar, eliptik dünyanın bağımlılık özelliklerinin eliptik olmayan dünyada da geçerli olduğu naif bir varsayımdan kaynaklanmaktadır.

İçin Embrechts noktaları kopulaların olan finans ve risk yönetimi, kullanılan bağımlılık ölçütlerinin çok daha geniş sınıf olarak Pearson korelasyon sadece bir türüdür.

Columbia İstatistik bölümü, 2013-2014 akademik yılını bağımlılık yapılarının daha derinlemesine anlamaları üzerine odaklandı: örneğin, doğrusal, doğrusal olmayan, monotonik, rütbe, parametrik, parametrik olmayan, potansiyel olarak oldukça karmaşık ve ölçeklemede büyük farklılıklar var. Yıl, bu alanda en çok katkıda bulunanların çoğunu bir araya getiren 3 günlük bir atölye ve konferans ile sona erdi ( http://datascience.columbia.edu/workshop- ve-conference- nonparametric-measures-dependence-apr-28-may-). 2 ).

Bu katkı Reshef Brothers, bir 2011 için şimdi ünlü dahil Bilim kağıt Büyük Veri Tespit Roman Dernekleri ayarlar http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf o geniş çapta eleştirilmiştir (Columbia etkinliği ile aynı anda yayınlanan iyi bir genel bakış için AndrewGelman.com'a bakınız: http://andrewgelman.com/2014/03/14/maximal-information-coefficient ). Reshefs, bu eleştirilerin tümünü sunumlarında (Columbia konferansı web sitesinde bulunabilir) ve çok daha verimli bir MIC algoritması ile ele aldı.

Gabor Szekely de dahil olmak üzere, bu organizasyonda şu anda DC’deki NSF’de birçok önde gelen istatistikçi sundu. Szekely mesafesini ve kısmi mesafe ilişkilerini geliştirdi. Tapınak U, Deep Mukhopadhay, Birleşmiş İstatistik Algoritmasını - veri biliminin birleşik algoritmaları için bir çerçeve - Eugene Franzen ile yapılan çalışmaya dayanarak http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/ . Ve bircok digerleri. Benim için en ilginç temalardan biri, geniş bir kaldıraç ve Çekirdek Hilbert Uzayını (RKHS) ve ki-kareyi çoğaltmaktı. Bu konferansta bağımlılık yapılarına modal bir yaklaşım olsaydı, RKHS oldu.

Tipik intro istatistik ders kitapları, genellikle aynı dairesel veya parabolik ilişkilerin görselleştirme setlerinin sunumlarına dayanarak, bağımlılık tedavisinde temel niteliğindedir. Daha karmaşık metinler, benzer, basit istatistiksel özelliklere sahip fakat çok farklı ilişkilere sahip dört farklı veri kümesinin görselleştirmesi olan Anscombe'nin Dörtlüsü'ne girecek : https://en.wikipedia.org/wiki/Anscombe%27s_quartet

Bu atölye çalışmasının en güzel yanlarından biri, standart, temelsiz tedavinin çok ötesine geçen, bağımlılık yapılarının ve görselleştirilen ve sunulan ilişkilerin çokluğu idi. Mesela, Reshefs’te, olası doğrusallıkların sadece bir örneğini temsil eden düzinelerce minik resim grafiği vardı. Derin Mukhopadhay, Himalayaların uydu görüntüsü gibi görünen son derece karmaşık ilişkilerin çarpıcı görsellerine sahipti. İstatistikler ve veri bilimi ders kitabı yazarlarının dikkat etmesi gerekiyor.

Columbia konferansından bu son derece karmaşık, ikili bağımlılık yapılarının geliştirilmesi ve görselleştirilmesiyle ortaya çıkarken, çok değişkenli istatistiksel modellerin bu doğrusal olmayanları ve karmaşıklıkları yakalama kabiliyetini sorgulamaya bırakıldım.

— Mike Hunter
kaynak

2

Quora'daki

— Mike Hunter

6

Bu sizin "korelasyon" un tam tanımına bağlıdır, ancak yozlaşmış vakaları inşa etmek çok zor değildir. "Bağımsız", "hiçbir zaman, hiçbir zaman" hiçbir zaman "doğrusal korelasyon" kadar tahmin gücü yoktur.

$y= \sin(2000x)$ $x$ $[0,1)$

— Andrew Charneski
kaynak

3

Temel olarak, Y'nin X'e bağımlılığı, Y değerlerinin dağılımının, X'in değerinin bir türüne bağlı olduğu anlamına gelir. Y.

Örneğin, X'in 0 veya 1 olmasına izin verin. X = 0 ise Y'nin 0 olmasına izin verin, X = 1 ise Y'nin -1, 0 veya 1 olmasına izin verin (aynı olasılık). X ve Y ilişkisizdir. Ortalama olarak, Y, X'e bağlı değildir, çünkü X ne olursa olsun, Y'nin ortalaması 0'dır. Fakat açıkça, Y değerlerinin dağılımı X değerine bağlıdır. Bu durumda, örneğin, X = 0 olduğunda Y varyansı 0 ve X = 1 olduğunda> 0 olur, dolayısıyla en azından varyansa bağlılık vardır, yani bir bağımlılık vardır.

Dolayısıyla, doğrusal korelasyon sadece ortalamaya (bir bağımlılık) bağlılık gösterir, sırayla sadece özel bir bağımlılıktır.

— Karpablanca
kaynak