İki kategorik değişken ile kategorik değişken ve sürekli değişken arasındaki ilişki nasıl elde edilir?


63

Bir regresyon modeli yapıyorum ve korelasyonları kontrol etmek için aşağıdakileri hesaplamam gerekiyor

  1. 2 Çok seviyeli kategorik değişken arasındaki korelasyon
  2. Çok seviyeli kategorik değişken ile sürekli değişken arasındaki korelasyon
  3. Çok seviyeli kategorik değişkenler için VIF (varyans enflasyon faktörü)

Yukarıdaki senaryolarda Pearson korelasyon katsayısının kullanılmasının yanlış olduğuna inanıyorum çünkü Pearson sadece 2 sürekli değişken için çalışıyor.

Lütfen aşağıdaki soruları cevaplayınız

  1. Yukarıdaki durumlar için hangi korelasyon katsayısı en iyisidir?
  2. VIF hesaplaması sadece sürekli veri için işe yarar, peki alternatif nedir?
  3. Önerdiğiniz korelasyon katsayısını kullanmadan önce kontrol etmem gereken varsayımlar nelerdir?
  4. SAS ve R'de bunları nasıl uygulayabilirim?

4
CV.SE'nin bunun gibi daha teorik istatistiklerle ilgili sorular için daha iyi bir yer olduğunu söyleyebilirim . Olmazsa, sorularınızın cevabının içeriğe bağlı olduğunu söyleyebilirim. Bazen kukla değişkenlere birden çok düzey düzleştirmek için mantıklı bazen de multinomial dağıtım, vb göre verilerinizi modellemek için değer
ffriend

Kategorik değişkenleriniz sıralandı mı? Evetse, bu aramak istediğiniz korelasyon tipini etkileyebilir.
nassimhddd

araştırmamda da aynı problemle yüzleşmem gerekiyor. ancak bu sorunu çözmek için doğru yöntemi bulamadım. bu yüzden lütfen bulduğunuz referansları verebilecek kadar kibar olun.
user89797,

p-değeri korelasyon katsayısı r ile aynı mı demek istiyorsun?
Ayo Emma

Kategorik vs sürekli için ANOVA ile yukarıda verilen çözüm iyidir. Küçük hıçkırık. P değeri ne kadar küçük olursa, iki değişken arasındaki "o kadar iyi" olur. Diğer yoldan değil.
myudelson

Yanıtlar:


73

İki Kategorik Değişken

İki kategorik değişkenin bağımsız olup olmadığını kontrol etmek Chi-Squared bağımsızlık testi ile yapılabilir.

Bu tipik bir Ki-Kare testidir : iki değişkenin bağımsız olduğunu varsayarsak, bu değişkenler için beklenmedik durum tablosunun değerleri eşit olarak dağıtılmalıdır. Ve sonra, gerçek değerlerin ne kadar uzak olduğunu kontrol ettik.

Bu testten sonra gelen bir korelasyon ölçüsü olan bir Crammer V de var

Örnek

Diyelim ki iki değişkenimiz var.

  • cinsiyet: erkek ve kadın
  • şehir: Blois ve Turlar

Aşağıdaki verileri gözlemledik:

gözlenen değerler

Cinsiyet ve şehir bağımsız mı? Chi-Squred testi yapalım. Boş hipotez: bağımsızdırlar, Alternatif hipotez, bir şekilde ilişkilendirildikleridir.

Boş hipotezi altında, tekdüze bir dağılım olduğunu varsayıyoruz. Dolayısıyla beklenen değerlerimiz aşağıdaki gibidir

beklenen değer

Böylece ki-kare testini uyguladık ve sonuçta ortaya çıkan p-değeri bu iki değişken arasındaki korelasyonun bir ölçüsü olarak görülebilir.

Crammer'ın V'sini hesaplamak için önce normalde örnekleme büyüklüğü olan chi-square-max normalleştirme faktörünü buluruz, ki-kareyi onunla böler ve karekök alır.

tıkaç v

R,

tbl = matrix(data=c(55, 45, 20, 30), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))

chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)

Burada p değeri 0.08 - oldukça küçük, fakat bağımsızlık hipotezini reddetmek için hala yeterli değil. Yani burada "korelasyonun" 0,08 olduğunu söyleyebiliriz.

Ayrıca V:

sqrt(chi2$statistic / sum(tbl))

Ve 0,14 olsun (ne kadar küçük, korelasyon o kadar düşük)

Başka bir veri kümesi düşünün

    Gender
City  M  F
   B 51 49
   T 24 26

Bunun için aşağıdaki verirdi

tbl = matrix(data=c(51, 49, 24, 26), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))

chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)

sqrt(chi2$statistic / sum(tbl))

P değeri 0,72'dir, 1'e çok daha yakındır ve v 0,03'tür - 0'a çok yakındır

Sayısal Değişkenler vs Kategorik

Bu tip için genellikle Tek Yönlü ANOVA testi yaparız: grup içi varyansı ve grup içi varyansı hesaplar ve sonra bunları karşılaştırırız.

Örnek

Çöreklerden emilen yağ ile çörek üretmek için kullanılan yağ türü arasındaki ilişkiyi incelemek istiyoruz (örnek buradan alınır )

çörek

Değişkenler arasında bir bağımlılık var mı? Bunun için ANOVA testi yapıyoruz ve p değerinin sadece 0,007 olduğunu görüyoruz - bu değişkenler arasında bir ilişki yok.

R,

t1 = c(164, 172, 168, 177, 156, 195)
t2 = c(178, 191, 197, 182, 185, 177)
t3 = c(175, 193, 178, 171, 163, 176)
t4 = c(155, 166, 149, 164, 170, 168)

val = c(t1, t2, t3, t4)
fac = gl(n=4, k=6, labels=c('type1', 'type2', 'type3', 'type4'))

aov1 = aov(val ~ fac)
summary(aov1)

Çıktı

            Df Sum Sq Mean Sq F value  Pr(>F)   
fac          3   1636   545.5   5.406 0.00688 **
Residuals   20   2018   100.9                   
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Böylece p değerini burada da bir korelasyon ölçüsü olarak alabiliriz.

Referanslar


1
Detaylar için teşekkürler Alexey. Daha fazla araştırmaya dayanarak polyserial ve poliklorik korelasyon hakkında buldum. Yaklaşımınız bundan daha iyi nasıl? Lütfen açıklayın
GeorgeOfTheRF

1
Bunların farkında değilim, üzgünüm.
Alexey Grigorev

Fasntastic @Alexey tarafından cevap. Yorumunuzu okuduktan sonra çevrimiçi poliklinik / polislik bağıntıları okudum. İki gizli değişken arasındaki ilişkiyi gözlemlenen iki değişkenden tahmin etme tekniğidir. İstediğin şeyin bu olduğunu sanmıyorum ve bu, Alexey'in cevabına benzemez.
KarthikS

1
İlk örneğiniz kategorik vs kategorik değil, kategorik vs nümeriktir, aslında şehre sayısal olan erkek sayısına (sırasıyla dişiler) karşı bakıyorsunuz . Kategorik kategorik olurdu vs, diyelim ki, şehir vs gözlerinin rengi veya şekiller veya başka bir şey, ama hiçbir şekilde bu cinsiyetin temsilcisi sayısı olacaktır.
saat

1
@AlexeyGrigorev Eğer verilerimiz normal dağılıma sahip değilse, kruskal-wallicyerine kullanılmalı one-way anovamı? Şimdiden teşekkürler.
ebrahimi
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.