Sürekli bir değişken ile kategorik bir değişken arasındaki “korelasyon” u nasıl inceleyebilirim?


19

Bu iki değişken türü arasındaki ilişkiyi incelemek için anlamlı bir “korelasyon” ölçüsü nedir?

R'de nasıl yapılır?


1
"nasıl çalışıyorsunuz" sorusunu sormadan önce, "BT nasıl tanımlanır" sorusuna cevap vermelisiniz :-) BTW, kategorik değişkeni tamsayı sayılarına yansıtırsanız, zaten korelasyon yapabilirsiniz.
Meraklı

2
@Tomas, bunu yaparsanız, ilişkinin tahmini gücü, noktaları nasıl etiketlemeye karar verdiğinize bağlıdır, bu biraz korkutucu :)
Macro

@Macro, haklısın - iyi bir tanım için başka bir sağlam argüman!
Meraklı

@Macro Demek istediğini yanlış anlamadım, hayır. Korelasyon doğrusal dönüşümlere duyarsızdır. Dolayısıyla sonlu a ve b için kor (X, Y) = kor (a + bX, Y). Bir 0 / 1'in 1/11 olarak yeniden etiketlenmesi, bu var veya doğrusal dönüşümünü kullanan korelasyonlara hiçbir şey yapmaz.
Alexis

@Curious yukarıdaki Makroya yaptığım yorumu görüyorum. Ve not: (1) X <- sample(c(0,1),replace=TRUE,size=100)(2) Y <- X + rnorm(100,0.5)(3) corr(Y,X)(4) X <- 1 + 10*X(5) corr(X,Y): her iki korelasyon için aynı sonuçlar!
Alexis

Yanıtlar:


19

Bir an için sürekli / ayrık sorunu görmezden gelelim. Temel olarak korelasyon, değişkenler arasındaki doğrusal ilişkinin gücünü ölçer ve ilişkinin gücünü ölçmek için alternatif bir yol istiyor gibi görünüyorsunuz. Bilgi teorisinden bazı fikirlere bakmak isteyebilirsiniz . Özellikle karşılıklı bilgilere bakmak isteyebileceğinizi düşünüyorum . Karşılıklı bilgiler temel olarak bir değişkenin durumunu bilmenin diğer değişken hakkında ne kadar bilgi verdiğini ölçmek için bir yol sağlar. Aslında bu tanım çoğu insanın korelasyon hakkında düşündüklerinde kastettiğine daha yakın olduğunu düşünüyorum.

İki X ve Y ayrık değişkeni için hesaplama şu şekildedir:

I(X;Y)=yYxXp(x,y)log(p(x,y)p(x)p(y))

İki sürekli değişken için toplamı almak yerine entegre ederiz:

I(X;Y)=YXp(x,y)log(p(x,y)p(x)p(y))dxdy

Özel kullanım durumunuz bir ayrık ve bir sürekli içindir. Bir toplam üzerinde entegrasyon yapmak veya bir integral üzerinde toplamak yerine, değişkenlerden birini diğer türe dönüştürmenin daha kolay olacağını hayal ediyorum. Bunu yapmanın tipik bir yolu olacaktır ayrıklaştırılabilir ayrık kutuları içine sürekli değişken.

Verileri takdir etmenin birkaç yolu vardır (örneğin eşit aralıklarla) ve R'yi kullanmak istiyorsanız entropi paketinin MI hesaplamaları için yararlı olması gerektiğine inanıyorum .


1
Teşekkürler. Ancak bir MI değerinin corr = 1 değerine ne kadar yüksek olduğu ve bir MI değerinin corr = 0 değerine ne kadar düşük karşılık geldiği?
Luna

MI minimum 0 ve MI = 0 ise yalnızca değişkenler bağımsızsa. MI'nın sabit bir üst sınırı yoktur (üst sınır değişkenlerin entropileri ile ilgilidir), bu nedenle sizin için önemliyse normalleştirilmiş sürümlerden birine bakmak isteyebilirsiniz.
Michael McGowan

6

Kategorik değişken sıralıysa ve sürekli değişkeni birkaç frekans aralığına yerleştirirseniz Gamma'yı kullanabilirsiniz. Sıralı forma yerleştirilen eşleştirilmiş veriler için Kendal's tau, Stuart's tau ve Somers D de mevcuttur. Bunların tümü SAS'ta Proc Freq kullanılarak kullanılabilir. R rutinleri kullanılarak nasıl hesaplandıklarını bilmiyorum. : Aşağıda detaylı bilgi veren bir sunum link http://faculty.unlv.edu/cstream/ppts/QM722/measuresofassociation.ppt#260,5,Measures Nominal ve Ordinal Değişkenler Derneği


1

Kategorik bir değişken etkili bir şekilde sadece bir gösterge değişkeni kümesidir. Ölçüm teorisinin, böyle bir değişkenin kategorilerin yeniden etiketlenmesine benzememesi temel bir fikirdir, bu nedenle kategorilerin sayısal etiketlemesini başka bir değişken arasındaki ilişkinin herhangi bir ölçüsünde kullanmak mantıklı değildir (örneğin, 'korelasyon') . Bu nedenle, sürekli bir değişken ile kategorik bir değişken arasındaki ilişkinin ölçülmesi tamamen ikincisinden türetilen gösterge değişkenlerine dayanmalıdır.

İki değişken arasında bir 'korelasyon' ölçüsü istediğiniz göz önüne alındığında, sürekli bir rastgele değişken ile kategorik bir değişkenten türetilen bir gösterge rastgele değişken I arasındaki korelasyona bakmak mantıklıdır . Letting cp P ( I = 1 ) Elimizdeki:XIϕP(I=1)

Cov(I,X)=E(IX)E(I)E(X)=ϕ[E(X|I=1)E(X)],

hangi verir:

Corr(I,X)=ϕ1ϕE(X|I=1)E(X)S(X).

Dolayısıyla, sürekli rasgele değişken ile gösterge rasgele değişken I arasındaki korelasyon , gösterge olasılığının ϕ oldukça basit bir fonksiyonudur ve I = 1 'deki şartlandırmadan X'in beklenen değerindeki standartlaştırılmış kazançtır . Bu korelasyonun sürekli rastgele değişkenin ayrıklaştırılmasını gerektirmediğini unutmayın.XIϕXI=1


Genel kategorik değişken için aralığı 1 , . . . , M sonra sadece sahip olmak bu fikri uzanacak vektör kategorik değişkenin her bir sonuç için korelasyon değerlerinin. Herhangi bir sonuç için C = k biz gelen gösterge tanımlayabilir I kI ( Cı- = k ) ve sahip:C1,...,mC=kIkI(C=k)

Corr(Ik,X)=ϕk1ϕkE(X|C=k)E(X)S(X).

Daha sonra tanımlayabilir her bir kategori için bağıntı değerleri vektörü olarak kategorik rastgele değişken. Bu gerçekten, kategorik rastgele bir değişken için 'korelasyon' hakkında konuşmanın mantıklı olduğu tek anlamdır.Corr(C,X)(Corr(I1,X),...,Corr(Im,X))

( Not: göstermek için önemsiz olan ve kategorik rastgele değişken için korelasyon vektörü için bu kısıtlamaya tabi olan kategorik olasılık vektörünün bilgi verilen Bu demektir. rasgele değişken ve standart sapması X , herhangi bir mesafede vektörünü olabilir m - 1 . elemanları arasında)kCov(Ik,X)=0Xm1


Yukarıdaki açıklama gerçek korelasyon değerleri içindir, ancak belli bir analizde bunların tahmin edilmesi gerekir. Gösterge korelasyonlarının örnek verilerden hesaplanması basittir ve parçaların her biri için uygun tahminlerin ikame edilmesiyle yapılabilir. (İsterseniz meraklısı tahmin yöntemleri kullanabilirsiniz.) Verilen örnek verileri korelasyon denkleminin bölümlerini şu şekilde tahmin edebiliriz:(x1,c1),...,(xn,cn)

ϕ^k1ni=1nI(ci=k).

E^(X)x¯1ni=1nxi.

E^(X|C=k)x¯k1ni=1nxiI(ci=k)/ϕ^k.

S^(X)sX1n1i=1n(xix¯)2.

X


0

R paketi mpmi, karışık değişken durum için karşılıklı bilgi, yani sürekli ve ayrık hesaplama yeteneğine sahiptir. Burada yararlı olmak için (nokta) biseriyal korelasyon katsayısı gibi başka istatistiksel seçenekler olmasına rağmen, doğrusal ve monotonik dışındaki ilişkilendirmeleri algılayabildiği için karşılıklı bilgilerin hesaplanması yararlı ve şiddetle tavsiye edilir.


0

Eğer X sürekli rastgele bir değişkendir ve Ykategorik bir rv. arasında gözlenen korelasyonX ve Y ile ölçülebilir

  1. nokta-serili korelasyon katsayısı, eğerY ikiye ayrılır;
  2. nokta-polyserial korelasyon katsayısı, eğerY sıralı kategorilerle çok boyutludur.

Bununla birlikte, nokta-poliseryal korelasyonun sadece nokta-biseriyelin genelleştirilmesi olduğuna dikkat edilmelidir.

Daha geniş bir görüş için, Olsson, Drasgow & Dorans (1982) [1] 'den bir tablo.

correlation coefficients

[1]: Kaynak: Olsson, U., Drasgow, F. ve Dorans, NJ (1982). Poliseriyel korelasyon katsayısı. Psikometrik, 47 (3), 337–347

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.