R - Ki-kare yaklaşımında uyarı yanlış olabilir


40

İtfaiyeciye giriş sınavı sonuçlarını gösteren verilerim var. Sınav sonuçlarının ve etnik kökenin karşılıklı olarak bağımsız olmadığı hipotezini test ediyorum. Bunu test etmek için, R'de Pearson ki-kare testi uygulamıştım. Sonuçlar beklediğimi gösteriyor, ancak " In chisq.test(a) : Chi-squared approximation may be incorrect." Şeklinde bir uyarı verdi .

> a
       white black asian hispanic
pass       5     2     2        0
noShow     0     1     0        0
fail       0     2     3        4
> chisq.test(a)

    Pearson's Chi-squared test

data:  a
X-squared = 12.6667, df = 6, p-value = 0.04865

Warning message:
In chisq.test(a) : Chi-squared approximation may be incorrect

Neden bir uyarı verdiğini bilen var mı? Yanlış bir yöntem kullandığım için mi?


2
Bu kadar az ölçümle bir sonuca asla güvenmeyin. Her sütunda yüzlerce insan varken, sonuçlarınıza biraz güvenebilirsiniz. Yine de sonuç mahalle veya servet nedeniyle yarışın kendisinden daha fazla olabilir.
Rodrigo

Yanıtlar:


41

Uyarı verdi, çünkü beklenen değerlerin çoğu çok küçük olacak ve bu yüzden p değerleri doğru olmayabilir.

Gelen Rkullanabileceğiniz chisq.test(a, simulate.p.value = TRUE)benzetmek p değerlerini kullanmak.

Bununla birlikte, bu tür küçük hücre boyutlarıyla, tüm tahminler zayıf olacaktır. Ki-kare veya lojistik regresyon ile sadece sınamaya karşı sınamayı ("gösterme" silmeyi) sınamak iyi olabilir. Nitekim, başarılı / başarısız notunun bağımlı bir değişken olduğu oldukça açık olduğundan, lojistik regresyon daha iyi olabilir.


Eklendiğinde aslında ne simulate.p.value = TRUEyapar chisq.test?
Al14

1
P değerini bulmak için simülasyonlar kullanır
Peter Flom - Reinstate Monica

1
Not simulate.p.value = TRUEkullanımlarını simülasyon marjinaller şartına yüzden gerçekten Fisher kesin testi bir sürümüdür.
kjetil b halvorsen

23

Mesele şudur ki, test istatistiklerinin dağılımına ki-kare yaklaşımı, kabaca normal olarak dağıtılan sayılara dayanır. Beklenen sayımların çoğu çok küçükse, yaklaşım zayıf olabilir.

O Not fiili acil tablolarda bağımsızlık ki-kare istatistiğinin dağılımı sürekli, ayrık değildir.

Nooshow kategorisi soruna büyük katkı sağlayacak; Dikkate alınması gereken bir şey noshow birleştirmek ve başarısız olmasıdır. Yine de uyarı alırsınız ancak sonuçları neredeyse çok fazla etkilemeyecek ve dağıtım oldukça makul olmalıdır (uyarı verilmeden önce uygulanan kural çok katı).

Ama her durumda, sen marjları üzerinde koşula istekli iseniz sorunla başa çıkmak için (eğer Fisher'in kesin testi çalıştırırken yapmak gibi) çok Ar kolayca; ayarlamak simulate.p.valuebağımsız değişkeni için TRUE; o zaman ki, ki-kare yaklaşımına test istatistiklerinin dağılımına bağlı değilsin.


Lütfen neden ".. test istatistiğinin dağılımına ki-kare yaklaşımının yaklaşık olarak kabaca normal dağılmış sayılara dayandığını" açıklayabilir misiniz? Örneğin 2x2 acil durum tablosu varsa, bunun nasıl doğru olabileceğini anlamıyorum. Sayılar (yaklaşık olarak) normal olarak nasıl dağıtılabilir? Beyaz, siyah, koyu esmer ve asyalı sayıları normal olarak nasıl dağıtılabilir? Sadece biraz eşit mi demek istiyorsun? Peki bunun bu soru ile ilgisi nedir? : stats.stackexchange.com/questions/141407/…
Erosennin

Sayı rastgele değişkenlerinin çok değişkenli dağılımının yaklaşık normal olması gerekir (dejenere olmasına rağmen). Gözlemlenen sayım kümesi, bu çok değişkenli normalden sadece tek bir vektör gözlemidir - dağılımı tek bir gözlemden yargılayamazsınız. Sizden bahsettiğim değerlendirmeyi yapmak için varsayımlara güvenmeniz gerekir; tek tek hücreler için bunu yapmak oldukça kolaydır (yani, belirli bir hücrenin boş alanı altındaki marjinal dağılımı). Hücrelerdeki sayıları birleştiriyor gibi görünüyorsunuz, ancak bu hiç mantıklı değil çünkü hepsi farklı dağılımlardan geliyorlar
Glen_b

İlk olarak, zaman ayırdığınız için teşekkür ederiz! Yani, acil durum tablosunun "aşağıya doğru" sayılmasının, birçok gözlemlere bakacak olursak (dejenere) çok değişkenli normal olması gerektiğini mi söylüyorsunuz? Bu, her bir hücrenin sayımının da normal olması gerektiği anlamına gelmez ve ayrıca beklenmedik durum tablosunu "yana doğru" sayar (Bu, 'arasında' demek istediğin şeyin bu olduğunu varsayıyorum) değil mi? Beklenen değeri 5 olan bir hücre, normal olarak 5 civarında dağıtılmalıdır, değil mi? Öyleyse, bir hücrenin değeri 40 değerine sahipse, bu hücrenin normal olarak 40 civarında dağılması ve birlikte ortalama 5 ve 40 arasında çok değişkenli bir normal olması gerekir, değil mi?
Erosennin

1
r×crc(r1)(c1)
Glen_b

Bu ağır ve çok iç içe geçmiş. Hiç vaktin varsa, burada ilk sorumu tekrar gönderdim : stats.stackexchange.com/questions/142429/… .
Erosennin

12

Bu kadar küçük sayılar için, Fisher'in kesin testini kullanabilirsiniz:

> fisher.test(a)

        Fisher's Exact Test for Count Data

data:  a 
p-value = 0.02618
alternative hypothesis: two.sided 

3

Lütfen Pearson'un ki-kare test makalesinin "Varsayımlar" bölümüne bakın.

Özet olarak, tablonuzdaki hücrelerin herhangi birinin sayısı 5'ten az olduğunda, varsayımlardan biri bozulur. Bence hata mesajı budur. Bağlantılı makalede, uygulanabilecek düzeltmeleri de bulabilirsiniz.


6
χ2

0

Asıl sorunuz, örneklem büyüklüğünden bahsediyor ama ikiden fazla grubun karşılaştırıldığını görüyorum. Testten elde edilen p değeri 0,05 veya daha az ise sonuçları yorumlamak zor olacaktır. Bu nedenle, bu gibi durumlarda kullandığım kısa bir betiği paylaşıyorum:

# Load the required packages:
library(MASS) # for chisq
library(descr) # for crosstable

CrossTable(a$exam_result, a$ethnicity
       fisher = T, chisq = T, expected = T,
       prop.c = F, prop.t = F, prop.chisq = F, 
       sresid = T, format = 'SPSS')

Bu kod hem Pearson'un Ki-Kare hem de Fisher'in Ki-kare üretecektir. Tablo girişlerinin her birinin oranlarının yanı sıra sayıları da üretir. Standartlaştırılmış artıklar veya z-değerleri puanlarına dayanarak, yani

sresid

Aralık dışındaysa | 1.96 | yani -1,96'dan az veya 1,96'dan büyükse, p <0,05 olması önemlidir. İşaret daha sonra pozitif ilişkili mi yoksa negatif mi olduğunu gösterir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.