Sürekli değişken ile kategorik değişken arasındaki korelasyonu tahmin etmek için karşılıklı bilgileri kullanma


13

Başlığa gelince, fikir, sürekli bir değişken ile kategorik bir değişken arasında "korelasyon" ("B'yi Bildiğimde ne kadar biliyorum" olarak tanımlanır) olarak tanımlamak için MI ve sonrasında karşılıklı bilgileri kullanmaktır. Bu konuyla ilgili düşüncelerimi bir an sonra anlatacağım, ancak CrossValidated ile ilgili diğer bazı soruları / cevapları okumanızı tavsiye etmeden önce , bazı yararlı bilgiler içerdiğinden.

Şimdi, kategorik bir değişken üzerine entegre olamadığımız için sürekli değişkeni takdir etmemiz gerekir. Bu, analizlerimin çoğunu yaptığım dil olan R'de kolayca yapılabilir. cutİşlevleri kullanmayı tercih ettim , çünkü değerleri takma olarak da takdim, ancak diğer seçenekler de mevcut. Nokta bir karar vermek zorunda olduğu önsel herhangi ayrıklaştırılmasının önce "kutuları" (ayrık durumlar) sayısı yapılabilir.

Ancak asıl sorun başka bir sorundur: MI, hangi birimin bit olduğu standartlaştırılmamış bir ölçüm olduğundan 0 ile ∞ arasında değişir. Bu bir korelasyon katsayısı olarak kullanılmasını çok zorlaştırır. Bu , burada ve MI'nın standartlaştırılmış bir versiyonu olan GCC'den sonra küresel korelasyon katsayısı kullanılarak kısmen çözülebilir ; GCC aşağıdaki gibi tanımlanır:

resim açıklamasını buraya girin

Kaynak: Formül, Andreia Dionísio, Rui Menezes ve Diana Mendes, 2010 tarafından Borsa Küreselleşmesini Analiz Etmek İçin Doğrusal Olmayan Bir Araç Olarak Karşılıklı Bilgiler'den alınmıştır.

GCC 0 ila 1 arasında değişir ve bu nedenle iki değişken arasındaki korelasyonu tahmin etmek için kolayca kullanılabilir. Sorun çözüldü, değil mi? Pekala. Tüm bu süreç büyük ölçüde takdir yetkisi sırasında kullanmaya karar verdiğimiz 'kutu' sayısına bağlıdır. İşte deneylerimin sonuçları:

resim açıklamasını buraya girin

Y ekseninde GCC ve x ekseninde, ayrıklaştırma için kullanmaya karar verdiğim 'kutu' sayısına sahipsiniz. İki çizgi, iki farklı (çok benzer olmasına rağmen) veri kümesi üzerinde yaptığım iki farklı analiz anlamına gelir.

Bana göre genel olarak MI ve özellikle GCC'nin kullanımı hala tartışmalıdır. Yine de, bu karışıklık benim tarafımdaki bir hatanın sonucu olabilir. Her iki durumda da, konu hakkındaki fikrinizi duymak isterim (ayrıca, kategorik bir değişken ile sürekli olan arasındaki korelasyonu tahmin etmek için alternatif yöntemleriniz var mı?).


2
Sürekli ve ayrık değişkenlerin ortak dağılımı için karşılıklı bilgilerin hesaplanması hakkında yorum yapamam, ancak normalleştirilmiş bir karşılıklı bilgi varyantı hesaplarsanız binmenin etkisinin ortadan kaldırılması gerektiğini önerebilirim. Tipik olarak biri entropilerin toplamı veya eklem entropisi tarafından normalleştirilir. Entropilerin toplamı biraz daha iyidir çünkü . H(Xi,Xj)H(Xi)+H(Xj)
Jessica Collins

BTW, burada herhangi birinin binning yöntemini denemek istemesi durumunda kod.
zkurtz

4
"Korelasyon" tahmin etmiyorsunuz. Karşılıklı bilgileri tahmin ediyorsunuz. Biri diğerini tahmin etmez; daha genel birleşme kavramının farklı ölçüleridir .
zkurtz

Belki de bu yazı için daha iyi bir başlık, "Değişken bilgilerini kategorik bir değişkenle tahmin etmek için sürekli bir değişkeni en iyi nasıl kurabilirim?"
zkurtz

İşte ilginç bir binning dışı yaklaşım. Maalesef bir R uygulaması bulamıyorum.
zkurtz

Yanıtlar:


5

Bu sorunla başa çıkmanın daha basit ve daha iyi bir yolu var. Kategorik bir değişken etkili bir şekilde sadece bir gösterge değişkeni kümesidir. Ölçüm teorisinin, böyle bir değişkenin kategorilerin yeniden etiketlenmesine benzememesi temel bir fikirdir, bu nedenle kategorilerin sayısal etiketlemesini başka bir değişken arasındaki ilişkinin herhangi bir ölçüsünde kullanmak mantıklı değildir (örneğin, 'korelasyon') . Bu nedenle, sürekli bir değişken ile kategorik bir değişken arasındaki ilişkinin ölçülmesi tamamen, ikincisinden türetilen gösterge değişkenlerine dayanmalıdır.

İki değişken arasında bir 'korelasyon' ölçüsü istediğiniz göz önüne alındığında, sürekli bir rastgele değişken ile kategorik bir değişkenten türetilen bir gösterge rastgele değişken arasındaki korelasyona bakmak mantıklıdır . İzin vermek elde ederiz:I ϕ P ( I = 1 )XIϕP(I=1)

Cov(I,X)=E(IX)E(I)E(X)=ϕ[E(X|I=1)E(X)],

hangi verir:

Corr(I,X)=ϕ1ϕE(X|I=1)E(X)S(X).

Dolayısıyla, sürekli rasgele değişken ile gösterge rasgele değişken arasındaki korelasyon , gösterge olasılık oldukça basit bir fonksiyonudur ve 'deki koşullandırmadan beklenen değerindeki standart . Bu korelasyonun sürekli rastgele değişkenin ayrıklaştırılmasını gerektirmediğini unutmayın.XIϕXI=1


Aralık sahip genel bir kategorik değişken için daha sonra bu fikri , kategorik değişkenin her bir sonucu için bir korelasyon değerleri vektörüne sahip olacak şekilde genişletirsiniz . Herhangi bir sonuç için karşılık gelen göstergesini tanımlayabiliriz :1 ,C1,...,mC=kIkI(C=k)

Corr(Ik,X)=ϕk1ϕkE(X|C=k)E(X)S(X).

Daha sonra için korelasyon değerlerinin vektörü olarak kategorik rastgele değişkenin her kategorisi. Bu gerçekten, kategorik rastgele bir değişken için 'korelasyon' hakkında konuşmanın mantıklı olduğu tek anlamdır.Corr(C,X)(Corr(I1,X),...,Corr(Im,X))

( Not: göstermek için önemsiz olduğu ve kategorik rastgele değişken için korelasyon vektörü için bu kısıtlamaya tabi olan olasılık vektörün bilgi verilen Bu demektir. kategorik rastgele değişken ve standart sapması , vektörü elemanlarının herhangi bir 1'inden türetebilirsiniz .)kCov(Ik,X)=0Xm1


Yukarıdaki açıklama gerçek korelasyon değerleri içindir, ancak belli bir analizde bunların tahmin edilmesi gerekir. Gösterge korelasyonlarının örnek verilerden hesaplanması basittir ve parçaların her biri için uygun tahminlerin ikame edilmesiyle yapılabilir. (İsterseniz meraklısı tahmin yöntemlerini kullanabilirsiniz.) Örnek veriler , korelasyon denkleminin bölümlerini şu şekilde tahmin edebiliriz:(x1,c1),...,(xn,cn)

ϕ^k1ni=1nI(ci=k).

E^(X)x¯1ni=1nxi.

E^(X|C=k)x¯k1ni=1nxiI(ci=k)/ϕ^k.

S^(X)sX1n1i=1n(xix¯)2.

Bu tahminlerin ikame edilmesi, korelasyon vektörünün temel bir tahminini verecektir. parametrik bilginiz varsa, korelasyon vektörünü doğrudan maksimum olasılık veya başka bir teknikle tahmin edebilirsiniz.X

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.