Karl Pearson ki-kare istatistiği nasıl ortaya çıktı?


14

Pearson, 1900'de aşağıdaki Pearson ki-kare istatistiklerini nasıl buldu?

Kχ2

K=(OijEij)2Eij
ki
Kχ2

Ki-kare akılda tutuldu mu ve metrik (aşağıdan yukarıya yaklaşım) tasarladı mı, yoksa istatistiği tasarladı ve daha sonra ki-kare dağılımını (yukarıdan aşağıya) takip ettiğini kanıtladı mı?K

Neden o formu seçtiğini veyave aynı zamanda kareyi payda ile neden bölündü.| O i j - E i j |(OijEij)2|OijEij|



1
Tabii ki, kullanabileceğiniz herhangi bir sayıda istatistiğe sahip olmak mümkündür. Alternatifleriniz mükemmel, ancak bunlar için hücre sayısına bağlı olarak farklılık gösterecek örnekleme dağılımları yapmak zorunda kalacaksınız. Bu form hakkında uygun olan bir şey, diğer dağılımlarla belirli ilişkilere sahip olmasıdır, örneğin k kare standart normal rasgele değişkenlerin toplamının dağılımıdır.
gung - Monica'yı eski

Yanıtlar:


23

Pearson'un 1900 tarihli makalesinin telif hakkı yok, bu yüzden çevrimiçi okuyabiliriz .

Bu yazının, bağımsızlık veya homojenlik testi değil, uyum iyiliği testi ile ilgili olduğunu belirterek başlamalısınız.

Çok değişkenli normal ile çalışarak ilerler ve ki-kare, kare standart normal değişkenlerin toplamı olarak ortaya çıkar.

P160-161 hakkındaki tartışmadan görebileceğiniz gibi, testin çok terimli dağıtılmış verilere uygulanmasını açıkça tartışıyor. Görünüşe göre multinomialın yaklaşık çok değişkenli normalliklerini anlıyor (kesinlikle marjların yaklaşık normal olduğunu biliyor - bu çok eski bir sonuç - ve gazetede belirtildiği için araçları, sapmaları ve kovaryansları biliyor); tahminim, bu şeylerin çoğunun 1900'e kadar eski şapka olduğu. (Ki kare dağılımının kendisinin 1870'lerin ortalarında Helmert tarafından işe geri döndüğünü unutmayın.)

Daha sonra p163'ün dibinde "uyum iyiliğinin bir ölçüsü" olarak ki-kare istatistiği türetir (istatistiğin kendisi çok değişkenli normal yaklaşımın üssünde görünür).

Daha sonra p-değerinin * nasıl değerlendirileceğini tartışmaya devam eder ve daha sonra 43.87'nin ötesinde bir üst kuyruk alanını 0.000016 olarak verir. [Bununla birlikte, o aşamada parametre tahmini için serbestlik derecelerini nasıl ayarlayacağını doğru bir şekilde anlamadığını unutmayın, bu yüzden makalelerindeki bazı örnekler çok yüksek bir df kullanıyor]χ122

* (ne Fisherian ne de Neyman-Pearson test paradigmaları mevcut değildir, yine de açıkça onun p-değeri kavramını uyguladığını görüyoruz.)

Açıkça gibi terimler . Bunun yerine, diye yazıyor , beklenen sayımları için vs ve gözlenen miktarlarda kullandığı benzeri ve. Daha sonra (alt yarı p160) tanımlar ve her hücre için hesaplar (bkz. Eşd. (Xv) p163 ve p167'nin altındaki tablonun son sütunu) ... eşdeğer miktarlar, ancak farklı gösterimde.m 1 m 2 m 1 e = m - m e 2 / m(OiEi)2/Eim1m2m1e=mme2/m

Ki-kare testini anlamanın şu andaki yolu henüz mevcut değil, ancak öte yandan, biraz var zaten (en azından ne arayacağınızı biliyorsanız). 1920'lerde (ve sonrasında) bu şeylere bakışımızı değiştiren çok şey oldu.


Çok durumda neden bölündüğümüze , çok bireysel bileşenlerin varyansı daha küçük , kovaryansları hesaba , bölmeye , sadeleştirme.E i E iEiEiEi


Düzenleme eklendi:

Plackett'in 1983 tarihli makalesinde çok sayıda tarihsel bağlam ve makaleye rehberlik eden bir şeyler verilmiştir. Ona bir göz atmanızı tavsiye ederim. JStor aracılığıyla çevrimiçi olarak ücretsiz görünüyor (oturum açarsanız), bu yüzden okumak için bir kurum aracılığıyla erişmenize bile gerek yoktur.

Plackett, RL (1983),
"Karl Pearson ve Chi-Kare Testi,"
International Statistical Review ,
Cilt. 51, No. 1 (Nis), s.59-72


1
Bu gönderiyi tekrar okudum ve her yaptığımda ek bir fikir ediniyorum. @Glen_b Daha önce yapmam gereken mükemmel cevabınız için teşekkür ederim. Başka bir soru sorabilirsem, E ile bölünmenin kovaryansa nasıl uyum sağladığına dair açıklamanızda, bu konu hakkında daha fazla ayrıntı verebilir veya beni bu noktayı tartışan kaynağa yönlendirebilir misiniz? Neden "normalleştirmenin" gerekli olduğunu sezgisel olarak anlayabiliyorum, ama sezgilerimi matematiksel kanıtla desteklemek istiyorum.
Alby

1
Ei

1
XiCov(Xi,Xj)=E(XiXj)E(Xi)E(Xj)=E(Xi)E(Xj)Xi,Xj>0Cov(Oi,Oj)

@Glen_b bağlantısı için teşekkür ederiz. Gönderiyi okuduktan sonra şimdi çok daha net! Nafakanın her hücre için başlangıçtaki farklılıkları ayarlamak için orada olduğunu düşünüyordum, bu nedenle "normalleşiyor" terimi, ancak yazınızı okuduğumda tamamen iz bıraktığımı fark ettim.
Alby

Ne yazık ki, 'normalleştir' kelimesi istatistiklerle ilgili en az üç farklı duyuya sahiptir. Süslenmemiş olarak, normalde sadece "ortalama 0 ve standart sapma 1" standardize etmek için kullanırım, ancak diğer insanlar bunu bir vektörü bazı normlara göre normalleştirmek, hatta yaklaşık normale dönüştürmek anlamında 'normalleştirmek' için kullanırlar. Burada böyle bir böcek olduğu için bundan kaçınmam gerektiğini bilmeliyim.
Glen_b
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.