Başlığa gelince, fikir, sürekli bir değişken ile kategorik bir değişken arasında "korelasyon" ("B'yi Bildiğimde ne kadar biliyorum" olarak tanımlanır) olarak tanımlamak için MI ve sonrasında karşılıklı bilgileri kullanmaktır. Bu konuyla ilgili düşüncelerimi bir an sonra anlatacağım, ancak CrossValidated ile ilgili diğer bazı soruları / cevapları okumanızı tavsiye etmeden önce , bazı yararlı bilgiler içerdiğinden.
Şimdi, kategorik bir değişken üzerine entegre olamadığımız için sürekli değişkeni takdir etmemiz gerekir. Bu, analizlerimin çoğunu yaptığım dil olan R'de kolayca yapılabilir. cut
İşlevleri kullanmayı tercih ettim , çünkü değerleri takma olarak da takdim, ancak diğer seçenekler de mevcut. Nokta bir karar vermek zorunda olduğu önsel herhangi ayrıklaştırılmasının önce "kutuları" (ayrık durumlar) sayısı yapılabilir.
Ancak asıl sorun başka bir sorundur: MI, hangi birimin bit olduğu standartlaştırılmamış bir ölçüm olduğundan 0 ile ∞ arasında değişir. Bu bir korelasyon katsayısı olarak kullanılmasını çok zorlaştırır. Bu , burada ve MI'nın standartlaştırılmış bir versiyonu olan GCC'den sonra küresel korelasyon katsayısı kullanılarak kısmen çözülebilir ; GCC aşağıdaki gibi tanımlanır:
Kaynak: Formül, Andreia Dionísio, Rui Menezes ve Diana Mendes, 2010 tarafından Borsa Küreselleşmesini Analiz Etmek İçin Doğrusal Olmayan Bir Araç Olarak Karşılıklı Bilgiler'den alınmıştır.
GCC 0 ila 1 arasında değişir ve bu nedenle iki değişken arasındaki korelasyonu tahmin etmek için kolayca kullanılabilir. Sorun çözüldü, değil mi? Pekala. Tüm bu süreç büyük ölçüde takdir yetkisi sırasında kullanmaya karar verdiğimiz 'kutu' sayısına bağlıdır. İşte deneylerimin sonuçları:
Y ekseninde GCC ve x ekseninde, ayrıklaştırma için kullanmaya karar verdiğim 'kutu' sayısına sahipsiniz. İki çizgi, iki farklı (çok benzer olmasına rağmen) veri kümesi üzerinde yaptığım iki farklı analiz anlamına gelir.
Bana göre genel olarak MI ve özellikle GCC'nin kullanımı hala tartışmalıdır. Yine de, bu karışıklık benim tarafımdaki bir hatanın sonucu olabilir. Her iki durumda da, konu hakkındaki fikrinizi duymak isterim (ayrıca, kategorik bir değişken ile sürekli olan arasındaki korelasyonu tahmin etmek için alternatif yöntemleriniz var mı?).