Değişkenlerden biri kategorik olduğunda korelasyon neden çok yararlı değildir?


14

Bu biraz bağırsak kontrolü, lütfen bu kavramı yanlış anlayıp anlamadığımı görmem için bana yardım et.

İşlevsel bir korelasyon anlayışım var ama bu fonksiyonel anlayışın arkasındaki ilkeleri gerçekten güvenle açıklamak için pipetleri biraz kavramış hissediyorum.

Anladığım kadarıyla, istatistiksel korelasyon (terimin daha genel kullanımının aksine), iki sürekli değişkeni ve bunların nasıl yükselme veya düşme eğiliminde olduklarını anlamanın bir yoludur .

Örneğin bir sürekli ve bir kategorik değişken üzerinde korelasyon yapamamanızın nedeni , ikisi arasındaki kovaryansın hesaplanmasının mümkün olmamasıdır , çünkü tanım gereği kategorik değişken bir ortalama veremez ve dolayısıyla ilkine giremez. istatistiksel analizin basamakları.

Bu doğru mu?


2
İşte çoğunlukla nüfus (örnek değil) korelasyon ve kovaryans ile ilgilenen bir sınıf I dersleri slaytlar. Virginia.edu/~trb5me/3120_slides/5/5.2/5.2.pdf
Taylor

3
Basit bir sebep, insanlara "en sevdiğiniz renk nedir?" ve "kırmızı", "yeşil", "mavi", "turuncu", "sarı", ..., veri kümenizde 1, 2, 3, olarak kodlanan şeyi yanıtlarlar. Sonra, arasındaki korelasyon katsayısını hesaplarsınız iş doyumu ve getiri değeri ile bu değişken 0.21. Bu ne demek? Eğer verebilir misiniz herhangi anlamlı bir yorumunu?
Tim

2
Yakından ilişkili (belki de yinelenen?) - Nominal (IV) ve sürekli (DV) bir değişken arasındaki ilişki
Silverfish

@Taylor: Her iki değişken de sürekli / nümerik ancak bunlardan biri stokastik, diğeri mesela GPA'ya karşı çalışma saatleri dışında ne kullanırız?
MSIS

Yanıtlar:


16

Korelasyon olan standart yani kovaryans kovaryans, ve standart sapması bölünmesiyle ve . Bunu açıklayayım.xyxy

Özetle, istatistikler verilere modelleri uydurma ve modelin bu veri noktalarını ne kadar iyi tanımladığını değerlendirme olarak özetlenebilir ( Sonuç = Model + Hata ). Bunu yapmanın bir yolu, modeldeki sapmaların veya kalıntıların (res) toplamını hesaplamaktır:

res=(xix¯)

Birçok istatistiksel hesaplama buna dayanmaktadır. korelasyon katsayısı (aşağıya bakınız).

Burada yapılan bir örnek veri kümesi R(artıklar kırmızı çizgilerle ve değerleri yanlarına eklenmiştir):

X <- c(8,9,10,13,15)  
Y <- c(5,4,4,6,8)

resim açıklamasını buraya girin

Her veri noktasına ayrı ayrı bakarak ve değerini modelden çıkararak (örneğin ortalama; bu durumda X=11ve Y=5.4), bir modelin doğruluğunu değerlendirebilir. Modelin gerçek değeri abarttığını / hafife aldığını söyleyebiliriz. Ancak, modeldeki tüm sapmaları toplarken , toplam hata sıfır olma eğilimindedir , pozitif değerler (model belirli bir veri noktasını hafife alır) ve negatif değerler (model belirli bir veriyi fazla tahmin eder) değerler birbirini iptal eder nokta). Bu sorunu çözmek için sapmaların toplamı karedir ve şimdi karelerin toplamı ( ) olarak adlandırılmaktadır:SS

SS=(xix¯)(xix¯)=(xix¯)2

Karelerin toplamı, modelden sapmanın bir ölçüsüdür (yani, ortalama veya herhangi bir uygun çizginin belirli bir veri kümesine). Gözlem sayısına bağlı olduğu için modelden sapmayı yorumlamak (ve diğer modellerle karşılaştırmak) için çok yararlı değildir. Daha fazla gözlem, karelerin toplamı artar. Bu, karenin toplamlarını bölerek halledilebilir . Ortaya çıkan örnek varyansı ( ), ortalama ve gözlemler arasındaki "ortalama hata" olur ve bu nedenle modelin verilere ne kadar iyi uyduğunun (yani temsil ettiği) bir ölçüsüdür:n1s2

s2=SSn1=(xix¯)(xix¯)n1=(xix¯)2n1

Kolaylık için, örnek standart sapması olarak bilinen örnek varyansının kare kökü alınabilir:

s=s2=SSn1=(xix¯)2n1

Şimdi, kovaryans iki değişkenin birbiriyle ilişkili olup olmadığını değerlendirmektedir. Pozitif bir değer, bir değişken ortalamadan saptıkça diğer değişkenin aynı yönde saptığını gösterir.

covx,y=(xix¯)(yiy¯)n1

Standartlaştırarak, Pearson korelasyon katsayısı olan birim standart sapma başına kovaryans ifade ederiz . Bu, değişkenlerin farklı birimlerle ölçülen birbirleriyle karşılaştırılmasını sağlar. Korelasyon katsayısı -1 (mükemmel bir negatif korelasyon) ile 0 (korelasyon yok) ve +1 (mükemmel bir pozitif korelasyon) arasında değişen bir ilişkinin gücünün bir ölçüsüdür.r

r=covx,ysxsy=(x1x¯)(yiy¯)(n1)sxsy

Bu durumda, Pearson korelasyon katsayısı, güçlü bir korelasyon olarak kabul edilebilecek (bu, çalışma alanına bağlı olarak da göreceli olmasına rağmen). Bunu kontrol etmek için, burada x ekseninde ve y ekseninde başka bir çizim :r=0.87XY

resim açıklamasını buraya girin

Uzun hikaye kısa, evet duygu doğru ama umarım cevabım bir bağlam sağlayabilir.


1
Bu süper yararlı - kendi anlayışımı derinleştirmeye çalışırken, istatistikte arka planı olmayan birisine yeterince açıklayamıyorsam, düşündüğüm kadar iyi anlamıyorum.
0'da Toof

8

Haklısın (neredeyse). Kovaryans (ve dolayısıyla korelasyon da) sadece sayısal değişkenler arasında hesaplanabilir. Buna sürekli değişkenler de dahil olmak üzere ayrık sayısal değişkenler de dahildir.

Kategorik değişkenler, sadece kendileri için yararlı bir sayısal kod verildiğinde korelasyonu hesaplamak için kullanılabilir, ancak bu pratik bir avantaj elde etme olasılığı düşüktür - belki de bazı iki seviyeli kategorik değişkenler için yararlı olabilir, ancak diğer araçların daha uygun olması muhtemeldir.


Pere noktasına eklemek için Pearson ürün moment korelasyon katsayısı, iki değişken arasındaki doğrusal ilişkinin derecesini temsil eder. Spearman'ın rho veya Kendall's tau gibi parametrik olmayan önlemler, X ve Y'nin birlikte artma veya azalma eğiliminin ne kadar olduğunu karakterize eder (zorunlu olarak doğrusal olması gerekmeyen monotonik bir ilişki gibi bir dereceye kadar davranır)
Michael R. Chernick

@Pere: İki sürekli değişkenimiz olduğunda, ancak bunlardan sadece biri Stokastik, örneğin, Çalışma Saatleri ve Ağırlık.
MSIS

1
@MSIS - Bu farklı bir soru olmalı, ancak bir değişken rastgele olmasa bile korelasyon kullanılabilir.
Pere

1
@Pere: İlgilenmeniz durumunda sordum: stats.stackexchange.com/questions/435257/…
MSIS

3

Değişkenlerden birinin kategorik olduğu hesaplama korelasyonlarında kesinlikle yanlış bir şey yoktur. Güçlü bir pozitif korelasyon, kategorik değişkeninizi açmanın (veya kuralınıza bağlı olarak) açmanın yanıtta bir artışa neden olacağı anlamına gelir. Örneğin, değişkenlerin kategorik olduğu bir lojistik regresyon hesaplanırken bu gerçekleşebilir: diyabet ve bmi gibi hasta eştanıları göz önüne alındığında kalp krizi olasılığını tahmin etmek. Bu durumda BMI, kalp krizi ile çok güçlü bir korelasyona sahip olurdu. Bunun yararlı olmadığı sonucuna varır mısınız?

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.