Phi, Matthews ve Pearson korelasyon katsayıları arasındaki ilişki


13

Phi ve Matthews korelasyon katsayıları aynı kavram mıdır? İki ikili değişken için Pearson korelasyon katsayısı ile nasıl ilişkili veya eşdeğerdir? İkili değerlerin 0 ve 1 olduğunu varsayıyorum.


Pearson'un iki Bernoulli rasgele değişkeni ve y arasındaki korelasyonu :xy

ρ=E[(x-E[x])(y-E[y])]var[x]var[y]=E[xy]-E[x]E[y]var[x]var[y]=n11n-n1n1n0n1n0n1

nerede

E[x]=n1nvar[x]=n0n1n2E[y]=n1nvar[y]=n0n1n2E[xy]=n11n

Wikipedia'dan Phi katsayısı :

İstatistiklerinde, phi katsayısı (aynı zamanda "ortalama kare durum katsayısı" olarak adlandırılır ve ile gösterilen ya da R φ ) Karl Pearson tarafından sunulan iki ikili değişkenler için ilişkili bir ölçüsüdür. Bu önlem, yorumlamasındaki Pearson korelasyon katsayısına benzer. Aslında, iki ikili değişken için tahmin edilen Pearson korelasyon katsayısı phi katsayısını döndürür ...φrφ

İki rastgele değişken ve y için 2x2 tablomuz varsaxy

resim açıklamasını buraya girin

İlişkisini tanımlamaktadır phi katsayısı ve y olan φ = N 11 , n 00 - n, 10 , n 01xy

φ=n11n00-n10n01n1n0n0n1

Wikipedia'dan Matthews korelasyon katsayısı :

Matthews korelasyon katsayısı (MCC) şu formül kullanılarak doğrudan karışıklık matrisinden hesaplanabilir:

MM=TPxTN--FPxFN-(TP+FP)(TP+FN-)(TN-+FP)(TN-+FN-)

Bu denklemde TP, gerçek pozitiflerin sayısı, TN gerçek negatiflerin sayısı, FP yanlış pozitiflerin sayısı ve FN yanlış negatiflerin sayısıdır. Paydadaki dört toplamdan herhangi biri sıfırsa, payda isteğe bağlı olarak bire ayarlanabilir; bu, doğru sınırlayıcı değer olarak gösterilebilecek sıfır Matthews korelasyon katsayısı ile sonuçlanır.

Yanıtlar:


14

Evet, onlar aynı. Matthews korelasyon katsayısı, Pearson korelasyon katsayısının bir karışıklık tablosuna özel bir uygulamasıdır.

Bir olasılık tablosu, temel verilerin sadece bir özetidir. Durum tablosunda gösterilen sayılardan, her gözlem için bir satıra dönüştürebilirsiniz.

Wikipedia makalesinde kullanılan 5 gerçek pozitif, 17 gerçek negatif, 2 yanlış pozitif ve 3 yanlış negatif içeren örnek karışıklık matrisini düşünün

> matrix(c(5,3,2,17), nrow=2, byrow=TRUE)
     [,1] [,2]
[1,]    5    3
[2,]    2   17
> 
> # Matthews correlation coefficient directly from the Wikipedia formula
> (5*17-3*2) / sqrt((5+3)*(5+2)*(17+3)*(17+2))
[1] 0.5415534
> 
> 
> # Convert this into a long form binary variable and find the correlation coefficient
> conf.m <- data.frame(
+ X1=rep(c(0,1,0,1), c(5,3,2,17)),
+ X2=rep(c(0,0,1,1), c(5,3,2,17)))
> conf.m # what does that look like?
   X1 X2
1   0  0
2   0  0
3   0  0
4   0  0
5   0  0
6   1  0
7   1  0
8   1  0
9   0  1
10  0  1
11  1  1
12  1  1
13  1  1
14  1  1
15  1  1
16  1  1
17  1  1
18  1  1
19  1  1
20  1  1
21  1  1
22  1  1
23  1  1
24  1  1
25  1  1
26  1  1
27  1  1
> cor(conf.m)
          X1        X2
X1 1.0000000 0.5415534
X2 0.5415534 1.0000000

Teşekkürler Peter! Matematiksel olarak, phi ve Mathew neden iki ikili rasgele değişken için Pearson ile eşdeğerdir?
Tim

Pearson korelasyonunun tanımını alıp manipüle ederseniz, bireysel gözlemler ve araçlar arasındaki farkların toplamından ziyade sayılara atıfta bulunursanız, Matthews formülünü alırsınız. Aslında bunu yapmadım, ama makul derecede açık olmalı.
Peter Ellis

2

E[xy]n1n1n2

n11nx1x1+n10nx1x0+n01nx0x1+n00nx0x0=n11n

İkincisi, göstermenin anahtarıρ=φ

n11n-n1n1=n11(n01+n10+n11+n00)-(n11+n10)(n11+n01)=n11n00-n10n01
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.