Kategorik bir değişken etkili bir şekilde sadece bir gösterge değişkeni kümesidir. Ölçüm teorisinin, böyle bir değişkenin kategorilerin yeniden etiketlenmesine benzememesi temel bir fikirdir, bu nedenle kategorilerin sayısal etiketlemesini başka bir değişken arasındaki ilişkinin herhangi bir ölçüsünde kullanmak mantıklı değildir (örneğin, 'korelasyon') . Bu nedenle, sürekli bir değişken ile kategorik bir değişken arasındaki ilişkinin ölçülmesi tamamen ikincisinden türetilen gösterge değişkenlerine dayanmalıdır.
İki değişken arasında bir 'korelasyon' ölçüsü istediğiniz göz önüne alındığında, sürekli bir rastgele değişken ile kategorik bir değişkenten türetilen bir gösterge rastgele değişken I arasındaki korelasyona bakmak mantıklıdır . Letting cp ≡ P ( I = 1 ) Elimizdeki:XIϕ≡P(I=1)
Cov(I,X)=E(IX)−E(I)E(X)=ϕ[E(X|I=1)−E(X)],
hangi verir:
Corr(I,X)=ϕ1−ϕ−−−−−√⋅E(X|I=1)−E(X)S(X).
Dolayısıyla, sürekli rasgele değişken ile gösterge rasgele değişken I arasındaki korelasyon , gösterge olasılığının ϕ oldukça basit bir fonksiyonudur ve I = 1 'deki şartlandırmadan X'in beklenen değerindeki standartlaştırılmış kazançtır . Bu korelasyonun sürekli rastgele değişkenin ayrıklaştırılmasını gerektirmediğini unutmayın.XIϕXI=1
Genel kategorik değişken için aralığı 1 , . . . , M sonra sadece sahip olmak bu fikri uzanacak vektör kategorik değişkenin her bir sonuç için korelasyon değerlerinin. Herhangi bir sonuç için C = k biz gelen gösterge tanımlayabilir I k ≡ I ( Cı- = k ) ve sahip:C1,...,mC=kIk≡I(C=k)
Corr(Ik,X)=ϕk1−ϕk−−−−−−√⋅E(X|C=k)−E(X)S(X).
Daha sonra tanımlayabilir her bir kategori için bağıntı değerleri vektörü olarak kategorik rastgele değişken. Bu gerçekten, kategorik rastgele bir değişken için 'korelasyon' hakkında konuşmanın mantıklı olduğu tek anlamdır.Corr(C,X)≡(Corr(I1,X),...,Corr(Im,X))
( Not: göstermek için önemsiz olan ve kategorik rastgele değişken için korelasyon vektörü için bu kısıtlamaya tabi olan kategorik olasılık vektörünün bilgi verilen Bu demektir. rasgele değişken ve standart sapması X , herhangi bir mesafede vektörünü olabilir m - 1 . elemanları arasında)∑kCov(Ik,X)=0Xm−1
Yukarıdaki açıklama gerçek korelasyon değerleri içindir, ancak belli bir analizde bunların tahmin edilmesi gerekir. Gösterge korelasyonlarının örnek verilerden hesaplanması basittir ve parçaların her biri için uygun tahminlerin ikame edilmesiyle yapılabilir. (İsterseniz meraklısı tahmin yöntemleri kullanabilirsiniz.) Verilen örnek verileri korelasyon denkleminin bölümlerini şu şekilde tahmin edebiliriz:(x1,c1),...,(xn,cn)
ϕ^k≡1n∑i=1nI(ci=k).
E^(X)≡x¯≡1n∑i=1nxi.
E^(X|C=k)≡x¯k≡1n∑i=1nxiI(ci=k)/ϕ^k.
S^(X)≡sX≡1n−1∑i=1n(xi−x¯)2−−−−−−−−−−−−−−−√.
X