Karşılıklı bilgi karşılıklı korelasyon


Yanıtlar:


77

Temel (doğrusal) korelasyon kavramını, kovaryansı ("Pearson'un korelasyon katsayısı" standartlaştırılmamış ") düşünelim. İki kesikli rassal değişken ve Y olasılık kütle fonksiyonu olan p ( x ) , p ( y ) ve eklem pmf p ( x , y ) içinXYp(x)p(y)p(x,y)

Cov(X,Y)=E(XY)E(X)E(Y)=x,yp(x,y)xy(xp(x)x)(yp(y)y)

Cov(X,Y)=x,y[p(x,y)p(x)p(y)]xy

İkisi arasındaki Karşılıklı Bilgi,

I(X,Y)=E(lnp(x,y)p(x)p(y))=x,yp(x,y)[lnp(x,y)lnp(x)p(y)]

Cov(X,Y)I(X,Y)

Cov(X,Y)I(X,Y)

Cov(X,Y)I(X,Y)

I(X,Y)Cov(X,Y)

Bu yüzden ikisi çelişkili değiller - tamamlayıcılar, iki rastgele değişken arasındaki ilişkinin farklı yönlerini tarif ediyorlar. Karşılıklı Bilginin, ilişkinin doğrusal olup olmadığına "endişe etmediği" söylenebilir, Kovaryans sıfır olabilir ve değişkenler yine de stokastik olarak bağımlı olabilir. Öte yandan, Kovaryans, ilgili olasılık dağılımlarını bilmeye gerek kalmadan doğrudan bir veri örneğinden hesaplanabilir (Karşılıklı Bilgiler, tahminini tahmin etmek için tahmin edilmesini gerektirir). bilinmeyen, Kovaryans tahminine göre çok daha hassas ve belirsiz bir çalışmadır.


@ Alecos Papadopoulos; Kapsamlı cevabınız için teşekkürler.
SaZa

1
Aynı soruyu kendime soruyordum ama cevabı tam olarak anlamadım. @ Alecos Papadopoulos: Ölçülen bağımlılığın aynı olmadığını anladım, tamam. Öyleyse, X ve Y arasındaki ne tür bir ilişki için Cov (X, Y) yerine karşılıklı bilgiyi I (X, Y) tercih etmeliyiz? Geçenlerde Y'nin X'e neredeyse lineer olarak bağımlı olduğu (saçılma grafiğindeki neredeyse düz bir çizgiydi) ve Corr (X, Y) 0.87'ye eşitken tuhaf bir örneğim vardı , buna karşılık I (X, Y) 0.45'e eşitti . Öyleyse, bir göstergenin diğerine göre seçilmesi gereken bazı durumlar açıkça var mı? Yardım için teşekkürler!
Gandhi91

XH(X)

Bu harika ve çok net bir cevap. Cov'un 0 olduğu, ancak pmi'nin olmadığı hazır bir örneğiniz olup olmadığını merak ediyordum.
54'te

@thang. Pek sayılmaz. Kovaryansın sıfır olduğu ve aynı zamanda ortak dağılımın mevcut olduğu bir örnek bulabilmeli, ortak bilgileri hesaplayabilmeli (ve ortak dağılım marjinallerin ürünü olmayacaktır, çünkü değişkenlerin olmamasını istiyoruz.) bağımsız).
Alecos Papadopoulos 12:17

7

Karşılıklı bilgi, iki olasılık dağılımı arasındaki bir mesafedir. Korelasyon, iki rastgele değişken arasındaki doğrusal bir mesafedir.

Bir sembol seti için tanımlanan iki olasılık arasında karşılıklı bir bilgiye sahip olabilirken, doğal olarak bir R ^ N alanına eşlenemeyen semboller arasında bir korelasyona sahip olamazsınız.

Öte yandan, karşılıklı bilgi değişkenlerin bazı özellikleri hakkında varsayımlarda bulunmaz ... Düzgün değişkenlerle çalışıyorsanız, korelasyon size onlar hakkında daha fazla bilgi verebilir; Mesela ilişkileri monotonik ise.

Önceden bazı bilgileriniz varsa, o zaman birinden diğerine geçebilirsiniz; Tıbbi kayıtlarda "genotip A" sembollerini 1 olarak ve "genotip A" sembollerini 0 ve 1 değerleriyle eşleştirebilir ve bunun bir hastalık veya başka bir ilişki ile bir korelasyonu olup olmadığını görebilirsiniz. Benzer şekilde, sürekli (örneğin: maaş) bir değişken alabilir, onu ayrı kategorilere dönüştürebilir ve bu kategoriler ile diğer simgeler kümesi arasındaki karşılıklı bilgiyi hesaplayabilirsiniz.


Korelasyon doğrusal bir fonksiyon değildir. Korelasyonun rastgele değişkenler arasındaki doğrusal ilişkinin bir ölçüsü olduğunu mu söylemeli?
Matthew Gunn,

1
Bunu düşünüyorum: "Bir sembol kümesi için tanımlanan iki olasılık arasında karşılıklı bir bilgiye sahip olabilirsiniz, ancak doğal olarak R ^ N alanına eşlenemeyen semboller arasında bir korelasyona sahip olamazsınız" muhtemelen anahtardır. Tam bir rastgele değişkeni yoksa Corr mantıklı değil; Bununla birlikte, pmi sadece pdf ve sigma (boşluk) ile bile anlamlıdır. Bu nedenle RV'lerin mantıklı olmadığı birçok uygulamada (örneğin NLP), pmi kullanılır.
02'de

6

İşte bir örnek.

Bu iki parselde korelasyon katsayısı sıfırdır. Ancak korelasyon sıfır olsa bile yüksek paylaşılan karşılıklı bilgi alabiliriz.

İlk olarak, eğer yüksek veya düşük bir X değerine sahipsem, o zaman yüksek bir Y değeri elde edeceğimi görüyorum. Ancak eğer X değeri orta ise, o zaman düşük bir Y değerine sahibim. X ve Y tarafından paylaşılan karşılıklı bilgiler hakkında bilgi tutar. İkinci bölümde, X bana Y hakkında hiçbir şey söylemez.

Karşılıklı Bilgiler ve Korelasyon


4

Her ikisi de özellikler arasındaki ilişkinin ölçüsü olsa da, MI korelasyon katsayısı (CE) sinüsünden daha genel olsa da, CE sadece doğrusal ilişkileri hesaba katabilir ancak MI doğrusal olmayan ilişkileri de idare edebilir.


Bu doğru değil. Pearson korelasyon katsayısı parametrik olmayan Spearman gibi alternatiflerin iki rastgele değişkenin normalliğini ve doğrusallığını varsaymaktadır. İki rvs arasında sadece monotoniklik olduğu varsayılır.
miyav
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.