İki Boole vektörü arasındaki Pearson veya Spearman korelasyonunu hesaplamak anlamlı mı?


42

Yalnızca 0 ve 1 içeren iki Boole vektörü vardır. Pearson veya Spearman korelasyonunu hesaplarsam, anlamlı mı veya makul mu?


2
Her iki değişken de ikilik ise, Pearson = Spearman = Kendall's tau. Evet, sence olabilir. Gerçekten ikili (boolean) verilerle, aynı zamanda "Pearson" un merkezlenmemiş veriler üzerinde hesaplanmasına yol açar, bu kosinüs olur.
ttnphns

1
... ve = Bizi ölçekten beklenmedik durum tablosuna getiren Phi (standartlaştırılmış Ki-kare).
ttnphns

Yanıtlar:


34

Pearson ve Spearman korelasyonu, iki ve iki ikili değişken için yaklaşık 0 sn ve 1 sn olduğu sürece , y ve x deyin . İki değişkenin dağılım grafiğini düşünerek ne anlama geldiklerine dair iyi bir niteliksel fikir edinmek kolaydır. Açıkçası, sadece dört olasılık var (0,0),(0,1),(1,0),(1,1)(böylece, görselleştirme için aynı noktaları birbirinden sallamak için titremek iyi bir fikirdir). Örneğin, iki vektörün aynı olduğu herhangi bir durumda, her birinde bazı 0'lara ve bazı 1'lere sahip olma, daha sonra y=x tanımlaması ve korelasyonun mutlaka 1 olması gerekir . Benzer şekilde, y=1x ve sonra korelasyonun 1 .

0101

01


1
Bu, bu durumda, Pearson veya Spearman korelasyon katsayısının bu iki ikili vektör için iyi bir benzerlik ölçütü olmadığı anlamına mı geliyor?
Zhilong Jia

Evet, benzerliği ölçmemesi ve her bir vektör için tüm 0'lar veya 1'lerin tümü için tanımsız olması anlamında.
Nick Cox,

Aynı veya 'zıt' vektörler vakası bana açık değil. Eğer x = c (1,1,1,1,1) ve y = (0,0,0,0,0) ise, y = 1-x ise ve bunun tanım gereği böyle olması gerektiğini söylüyorsunuz. , -1 korelasyonu ima eder. Aynı şekilde y = x-1 +1 korelasyonunu ima eder. Bir dağılım grafiğinde yalnızca 1 nokta (5 kopya) vardır, böylece düz bir çizgi çizilebilir. Bu durumda korelasyon tanımsız gibi hissediyor. Ne demek istediğini yanlış anladıysam özür dilerim. @NickCox
PM.

2
Hayır; İlk cümleme göre belirttiğim gibi, korelasyonun tanımlanması için 0 ve 1 lerin bir karışımına sahip olmanız gerektiğini söylemiyorum. Aksi takdirde, herhangi bir değişkenin SD değeri 0 ise, o zaman korelasyon tanımlanmaz. Ancak iki kez bahsetmek için cevabımı değiştirdim.
Nick Cox

15

İkili vektörler için özel benzerlik ölçümleri vardır, örneğin:

  • Jaccard-Needham
  • Zar
  • Noel
  • Russell-Rao
  • Sokal-Michener
  • Rogers-Tanimoto
  • Kulzinsky

vb.

Ayrıntılar için buraya bakınız .


5
Elbette daha güvenilir ve kapsamlı referanslar var. Yazarların isimlerini doğru aldıkları seviyelerde bile, Kulczyński ve Tanimoto'ya dikkat edin. Bakınız örneğin Hubálek, Z. 1982. İkili (varlık-yokluk) verilerine dayanarak ilişkilendirme ve benzerlik katsayıları: Bir değerlendirme. Biyolojik İnceleme 57: 669-689.
Nick Cox,

5
Açıkça 'Tanimoto' yazmışlar, ancak 'Kulzinsky' bilerek basitleştirildi. Referansınız şüphesiz daha güvenilirdir ancak herkes tarafından erişilebilir değildir.
Digio

0

İkili veriler için Pearson korelasyon katsayısının kullanılmasını tavsiye etmem, aşağıdaki karşı örneğe bakın:

set.seed(10) 
a = rbinom(n=100, size=1, prob=0.9) 
b = rbinom(n=100, size=1, prob=0.9)

çoğu durumda her ikisi de bir 1 verir

table(a,b)

> table(a,b)
   b
a    0  1
  0  0  3
  1  9 88

ama korelasyon bunu göstermiyor

cor(a, b, method="pearson")

> cor(a, b, method="pearson")
[1] -0.05530639

Jaccard endeksi gibi bir ikili benzerlik ölçüsü bununla birlikte çok daha yüksek bir ilişki olduğunu göstermektedir:

install.packages("clusteval")
library('clusteval')
cluster_similarity(a,b, similarity="jaccard", method="independence")

> cluster_similarity(a,b, similarity="jaccard", method="independence")
[1] 0.7854966

Bu neden? Buraya bakınız basit iki değişkenli regresyon

plot(jitter(a, factor = .25), jitter(b, factor = .25), xlab="a", ylab="b", pch=15, col="blue", ylim=c(-0.05,1.05), xlim=c(-0.05,1.05))
abline(lm(a~b), lwd=2, col="blue")
text(.5,.9,expression(paste(rho, " = -0.055")))

Aşağıdaki arsa (puan sayısını daha net hale getirmek için küçük bir gürültü eklendi) İki değişkenli regresyon çizgisi

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.