İki Kategorik Değişken
İki kategorik değişkenin bağımsız olup olmadığını kontrol etmek Chi-Squared bağımsızlık testi ile yapılabilir.
Bu tipik bir Ki-Kare testidir : iki değişkenin bağımsız olduğunu varsayarsak, bu değişkenler için beklenmedik durum tablosunun değerleri eşit olarak dağıtılmalıdır. Ve sonra, gerçek değerlerin ne kadar uzak olduğunu kontrol ettik.
Bu testten sonra gelen bir korelasyon ölçüsü olan bir Crammer V de var
Örnek
Diyelim ki iki değişkenimiz var.
- cinsiyet: erkek ve kadın
- şehir: Blois ve Turlar
Aşağıdaki verileri gözlemledik:
Cinsiyet ve şehir bağımsız mı? Chi-Squred testi yapalım. Boş hipotez: bağımsızdırlar, Alternatif hipotez, bir şekilde ilişkilendirildikleridir.
Boş hipotezi altında, tekdüze bir dağılım olduğunu varsayıyoruz. Dolayısıyla beklenen değerlerimiz aşağıdaki gibidir
Böylece ki-kare testini uyguladık ve sonuçta ortaya çıkan p-değeri bu iki değişken arasındaki korelasyonun bir ölçüsü olarak görülebilir.
Crammer'ın V'sini hesaplamak için önce normalde örnekleme büyüklüğü olan chi-square-max normalleştirme faktörünü buluruz, ki-kareyi onunla böler ve karekök alır.
R,
tbl = matrix(data=c(55, 45, 20, 30), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))
chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)
Burada p değeri 0.08 - oldukça küçük, fakat bağımsızlık hipotezini reddetmek için hala yeterli değil. Yani burada "korelasyonun" 0,08 olduğunu söyleyebiliriz.
Ayrıca V:
sqrt(chi2$statistic / sum(tbl))
Ve 0,14 olsun (ne kadar küçük, korelasyon o kadar düşük)
Başka bir veri kümesi düşünün
Gender
City M F
B 51 49
T 24 26
Bunun için aşağıdaki verirdi
tbl = matrix(data=c(51, 49, 24, 26), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))
chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)
sqrt(chi2$statistic / sum(tbl))
P değeri 0,72'dir, 1'e çok daha yakındır ve v 0,03'tür - 0'a çok yakındır
Sayısal Değişkenler vs Kategorik
Bu tip için genellikle Tek Yönlü ANOVA testi yaparız: grup içi varyansı ve grup içi varyansı hesaplar ve sonra bunları karşılaştırırız.
Örnek
Çöreklerden emilen yağ ile çörek üretmek için kullanılan yağ türü arasındaki ilişkiyi incelemek istiyoruz (örnek buradan alınır )
Değişkenler arasında bir bağımlılık var mı? Bunun için ANOVA testi yapıyoruz ve p değerinin sadece 0,007 olduğunu görüyoruz - bu değişkenler arasında bir ilişki yok.
R,
t1 = c(164, 172, 168, 177, 156, 195)
t2 = c(178, 191, 197, 182, 185, 177)
t3 = c(175, 193, 178, 171, 163, 176)
t4 = c(155, 166, 149, 164, 170, 168)
val = c(t1, t2, t3, t4)
fac = gl(n=4, k=6, labels=c('type1', 'type2', 'type3', 'type4'))
aov1 = aov(val ~ fac)
summary(aov1)
Çıktı
Df Sum Sq Mean Sq F value Pr(>F)
fac 3 1636 545.5 5.406 0.00688 **
Residuals 20 2018 100.9
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Böylece p değerini burada da bir korelasyon ölçüsü olarak alabiliriz.
Referanslar