Excel vs R'de ki kare hesaplamanın garip yolu


9

Ben hesaplıyor iddia iddia bir excel sayfası bakıyorum , ama bunu yapmanın bu şekilde tanımıyorum ve bir şey eksik olup olmadığını merak ediyordum.χ2

İşte analiz ettiği veriler:

+------------------+----------+----------+
| Total Population | Observed | Expected |
+------------------+----------+----------+
|             2000 |       42 | 32.5     |
|             2000 |       42 | 32.5     |
|             2000 |       25 | 32.5     |
|             2000 |       21 | 32.5     |
+------------------+----------+----------+

Ki kare hesaplamak için her grup için yaptığı toplamlar:

P = (sum of all observed)/(sum of total population) = 0.01625
A = (Observed - (Population * P)) ^2
B = Total Population * P * (1-P)
ChiSq = A/B

Yani her grup için :χ2

2.822793
2.822793
1.759359
4.136448

Ve toplam Ki Kare geçerli: 11.54139.

Ancak, hesaplarken gördüğüm her örnek bundan tamamen farklıdır. Her grup için yapardım:χ2

chiSq = (Observed-Expected)^2 / Expected

Ve bu nedenle yukarıdaki örnek için toplam ki kare değeri alacağım 11.3538.

Benim sorum - excel sayfasında neden bu şekilde hesaplıyorlar ? Bu tanınmış bir yaklaşım mı?χ2

GÜNCELLEME

Bunu bilmek istememin sebebi, bu sonuçları R dilinde tekrarlamaya çalışıyorum. Ben chisq.test işlevini kullanıyorum ve Excel sayfası ile aynı sayı ile çıkmıyor. Herkes R bu yaklaşımın nasıl yapılacağını biliyorsa çok yararlı olacaktır!

GÜNCELLEME 2

Herkes ilgilenen varsa, ben nasıl R hesapladı:

res <- matrix(c((2000-42), 42, (2000-42), 42, (2000-25), 25, (2000-21), 21), 2, 4)
chisq.test(res)

İkinci güncellemenizdeki yaklaşım doğru istatistiği vermelidir. Ancak, beklentileriniz gözlemlenenlerin toplamına dayanmıyorsa, bir sorun olabilir, çünkü oradaki p-değeri bunu şartlandırır. Ancak, beklenen ve gözlemlenen toplamın aynı olduğunu fark ettim (şans eseri gerçekleşme olasılığı düşük), bu yüzden muhtemelen iyi. Bunu daha kolay bir şekilde yapabilirsiniz:x=c(42,42,25,21);chisq.test(cbind(x,2000-x))
Glen_b

@Glen_b Excel sayfasında, Toplam Nüfus * üzerinde yukarıda çalıştığım 'P' değeri yapılarak beklentilerin karşılandığına inanıyorum. bu bir sorun olacak mı? Ayrıca toplam nüfus değişmektedir - çoğu zaman 2000'dir, ancak gerçekten herhangi bir sayı olabilir. Burada yeniden oluşturmaya çalışıyorum Excel sayfası aslında p-değerini dikkate almaz, bu yüzden istatistik bundan etkilenmezse, o zaman belki bir sorun değil ...
user1578653

Soru, p'lerin nereden geldiğine bağlı. Toplam gözlemlenen sayıya bakmayı içeriyorlar mı?
Glen_b

Bana göre Ps gibi görünüyor ve bu nedenle beklenen hem toplam gözlemlenen sayıya hem de toplam nüfusa dayanıyor ... Ancak Excel sayfasında verilen tüm örneklerde beklenen değer aynı gözlemlenen toplam sayım / sayım sayısı.
user1578653

Eğer p'ler bu şekilde sayılara dayanıyorsa, elbette beklenenler takip eder. Durum buysa, özgürlük dereceleri gibi görünüyor ve bu yüzden R'de yaptığınız gibi iyi - ama açıklamamın birkaç kelimesinin değişmesi gerekebilir.
Glen_b

Yanıtlar:


13

Bu oldukça basittir.

Bu açıkça binom örnekleme. Buna bakmanın iki yolu var.

Yöntem 1, e-tablonunkini, gözlemlenen sayıları tedavi etmek Xben gibi ~Çöp Kutusu(N-ben,pben)olarak tahmin edilebilir. N-(μben=N-benpben,σben2=N-benpben(1-pben)). Gibi,Zben=(Xben-μben)/σben yaklaşık standart normaldir ve Z's bağımsızdır, yani (yaklaşık) ΣbenZben2~χ2.

(Eğer p'ler gözlemlenen sayılara dayanıyorsa, Zbağımsız değil, ama yine de daha az serbestlik derecesine sahip ki-kare.)

Yöntem 2: (Ö-E)2/Eki-kare biçimi de işe yarıyor, ancak sadece 'Gözlemlendi' etiketli kategorideki değil , aynı zamanda bu kategoride olmayanları da dikkate almanızı gerektiriyor :

+------------+------+-------+
| Population | In A | Not A |
+------------+------+-------+
|       2000 |   42 |  1958 |
|       2000 |   42 |  1958 |
|       2000 |   25 |  1975 |
|       2000 |   21 |  1979 |
+ -----------+------+-------+

Nerede E'nin ilk sütunu sizinki gibi, ikinci sütununki ise N-ben(1-pben)

... sonra topla (Ö-E)2/E her iki sütun üzerinde.

İki form cebirsel olarak eşdeğerdir. Bunu not et 1/p+1/(1-p)=1/p(1-p). İ düşününth ki-kare sırası:

(Xben-μben)2σben2=(Xben-N-benpben)2N-benpben(1-pben)=(Xben-N-benpben)2N-benpben+(Xben-N-benpben)2N-ben(1-pben)=(Xben-N-benpben)2N-benpben+(N-ben-N-ben+N-benpben-Xben)2N-ben(1-pben)=(Xben-N-benpben)2N-benpben+(N-ben-Xben-(N-ben-N-benpben))2N-ben(1-pben)=(Xben-N-benpben)2N-benpben+((N-ben-Xben)-N-ben(1-pben))2N-ben(1-pben)=(Öben(bir)-Eben(bir))2Eben(bir)+(Öben(bir¯)-Eben(bir¯))2Eben(bir¯)

Bu, yuvarlama hatasına kadar her iki yönde de aynı cevabı almanız gerektiği anlamına gelir.

Bakalım:

             Observed             Expected                 (O-E)^2/E          
  Ni        A     not A          A      not A             A           not A      
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     25         1975      32.5     1967.5       1.730769231     0.028589581     
 2000     21         1979      32.5     1967.5       4.069230769     0.067217281     

                                            Sum     11.35384615      0.187547649  

Ki kare = 11.353846 + 0.187548 = 11.54139

Hangi cevap ile eşleşir.


1
Yardımın için teşekkürler! Ben bir matematikçi / istatistikçi değilim, bu başlangıçta beni şaşırttı, ama açıklaman çok kolay.
user1578653
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.