Ki-kare testi neden beklenen sayıyı varyans olarak kullanıyor?


18

In χ2 testi normal dağılımların her birinin standart sapma (sapmalar olarak yani beklendiği sayımları) olarak beklenen sayımları karekökünü kullanarak temeli nedir? Bunu tartışırken bulabildiğim tek şey http://www.physics.csbsju.edu/stats/chi-square.html ve sadece Poisson dağılımlarından bahsediyor.

Karışıklığımın basit bir örneği olarak, iki sürecin önemli ölçüde farklı olup olmadığını test ediyor olsaydık, biri çok küçük varyansla 500 As ve 500 Bs üreten, diğeri de çok küçük varyansla 550 As ve 450 Bs üreten (nadiren üreten) 551 As ve 449 Pansiyonlar)? Buradaki varyans açık bir şekilde beklenen değer değil mi?

(Ben bir istatistikçi değilim, bu yüzden gerçekten uzman olmayanların erişebileceği bir cevap arıyorum.)


Bunun muhtemelen χk2 rasgele değişkenin varyansının 2k ve ayrıca doğru dağılım için (olasılık oranı testinde olduğu gibi) istatistiğin 2 ile çarpılması gerektiğiyle ilgisi vardır . Belki birisi bunu daha resmi olarak bilir.
Makro

Yanıtlar:


16

Birçok test istatistiği için genel form

observedexpectedstandarderror

Normal bir değişken olması durumunda, standart hata ya bilinen popülasyon varyansına (z-istatistikleri) ya da örnekten tahmini (t-istatistiklerine) dayanır. Binom ile standart hata bu orana dayanır (testler için varsayılan oran).

Bir olasılık tablosunda, her bir hücredeki sayım, beklenen değere (null altında) eşit bir ortalamaya sahip bir Poisson dağılımından geliyor gibi düşünülebilir. Poisson dağılımı için varyans ortalamaya eşittir, bu nedenle standart hata hesaplaması için de beklenen değeri kullanıyoruz. Bunun yerine gözlemlenen bir istatistik gördüm, ancak daha az teorik gerekçesi var veχ2distribution 2 dağılımına yaklaşmıyor .


1
Poisson ile bağlantıya takılıyorum / her hücrenin neden bir Poisson'dan geldiği düşünülebilir. Poissons'ın ortalamasını / varyansını biliyorum ve bir oran verilen olay sayısını temsil ettiklerini biliyorum. Ki-kare dağılımlarının standart (varyans 1) normal karelerinin toplamını temsil ettiğini de biliyorum. Ben sadece normal her "yayılması" bir varsayım olarak beklenen değeri yeniden kullanarak gerekçe etrafında başımı sarmaya çalışıyorum. Bu sadece her şeyi ki-kare dağılımına uygun hale getirmek mi / normalleri "standartlaştırmak" mı?
Yang

3
Birkaç sorun var, Poisson dağılımı, işler oldukça bağımsız olduğunda sayımlar için yaygındır. Tablonun sabit bir toplamı olduğunu düşünmek yerine, değerleri tablonun hücreleri arasında dağıtmak yerine, tablonun sadece bir hücresini düşünün ve o hücreye kaç cevap düştüğünü görmek için sabit bir süre bekliyorsunuz. Bu, Poisson'un genel fikrine uyuyor. Büyük araçlar için, normal dağılıma sahip bir Poisson'a yaklaşabilirsiniz, bu nedenle test istatistiği Poisson'a normal bir yaklaşım olarak mantıklıdır, ardından dönüşür . χ2
Greg Snow

1
(1) Farz hücre sayımları ortalama ile bağımsız Poisson rasgele değişkenler n π i . O zaman, kesinlikle, k i = 1 ( X i - n π i ) 2Xi,,Xknπidağıtımda 2 k . Ancak, bununla ilgili sorun,n'ninbirparametre olmasıve gözlemlenen gerçek sayımların olmamasıdır. Gözlemlenen toplam sayılarN= k i = 1 XiPoi(n). N/n1neredeyse kesinlikle SLLN tarafındanolmasına rağmen, sezgisel yöntemi uygulanabilir bir şeye dönüştürmek için biraz daha çalışma yapılması gerekiyor. i=1k(Xinπi)2nπiχk2nN=i=1kXiPoi(n)N/n1
kardinal

Karışıklığımın basit bir örneği olarak, iki sürecin önemli ölçüde farklı olup olmadığını test ediyor olsaydık, biri çok küçük varyansla 500 As ve 500 Bs üreten, diğeri de çok küçük varyansla 550 As ve 450 Bs üreten (nadiren üreten) 551 As ve 449 Pansiyonlar)? Buradaki varyans açık bir şekilde beklenen değer değil mi?
Yang

1
@Yang: Verileriniz gibi görünüyor - tarif etmediğiniz --- ki-kare istatistiği kullanımının altında yatan modele uymayın. Standart model çok terimli örneklemeden biridir . Açıkçası, hatta (koşulsuz) Poisson örneklemesi kapsanıyor, Greg'in cevabı bu. Önceki yorumda buna (belki de geniş) bir referans yapıyorum.
kardinal

17

En sezgiyi sağlamaya çalışmak için en basit durumu ele alalım. Let ile ayrı bir dağılımından bir iid örnek olarak k sonuçları. Let π 1 , ... , π k her bir sonucun olasılıkları olun. Ki kare istatistiği X 2 = k i = 1 ( As i - n π i ) 2'nin (asimtotik) dağılımı ile ilgileniyoruz X1,X2,,Xnkπ1,,πk

X2=i=1k(Sinπi)2nπi.
Here nπi is the expected number of counts of the ith outcome.

A suggestive heuristic

Define Ui=(Sinπi)/nπi, so that X2=iUi2=U22 where U=(U1,,Uk).

Since Si is Bin(n,πi), then by the Central Limit Theorem,

Ti=Ui1πi=Sinπinπi(1πi)dN(0,1),
hence, we also have that, UidN(0,1πi).

Now, if the Ti were (asymptotically) independent (which they aren't), then we could argue that iTi2 was asymptotically χk2 distributed. But, note that Tk is a deterministic function of (T1,,Tk1) and so the Ti variables can't possibly be independent.

Hence, we must take into account the covariance between them somehow. It turns out that the "correct" way to do this is to use the Ui instead, and the covariance between the components of U also changes the asymptotic distribution from what we might have thought was χk2 to what is, in fact, a χk12.

Some details on this follow.

A more rigorous treatment

It is not hard to check that, in fact, Cov(Ui,Uj)=πiπj for ij.

So, the covariance of U is

A=IππT,
where π=(π1,,πk). Note that A is symmetric and idempotent, i.e., A=A2=AT. So, in particular, if Z=(Z1,,Zk) has iid standard normal components, then AZN(0,A). (NB The multivariate normal distribution in this case is degenerate.)

Now, by the Multivariate Central Limit Theorem, the vector U has an asymptotic multivariate normal distribution with mean 0 and covariance A.

So, U has the same asymptotic distribution as AZ, hence, the same asymptotic distribution of X2=UTU is the same as the distribution of ZTATAZ=ZTAZ by the continuous mapping theorem.

But, A is symmetric and idempotent, so (a) it has orthogonal eigenvectors, (b) all of its eigenvalues are 0 or 1, and (c) the multiplicity of the eigenvalue of 1 is rank(A). This means that A can be decomposed as A=QDQT where Q is orthogonal and D is a diagonal matrix with rank(A) ones on the diagonal and the remaining diagonal entries being zero.

Thus, ZTAZ must be χk12 distributed since A has rank k1 in our case.

Other connections

The chi-square statistic is also closely related to likelihood ratio statistics. Indeed, it is a Rao score statistic and can be viewed as a Taylor-series approximation of the likelihood ratio statistic.

References

This is my own development based on experience, but obviously influenced by classical texts. Good places to look to learn more are

  1. G. A. F. Seber and A. J. Lee (2003), Linear Regression Analysis, 2nd ed., Wiley.
  2. E. Lehmann and J. Romano (2005), Testing Statistical Hypotheses, 3rd ed., Springer. Section 14.3 in particular.
  3. D. R. Cox and D. V. Hinkley (1979), Theoretical Statistics, Chapman and Hall.

(+1) I think it is hard to find this proof in standard categorical data analysis texts like Agresti, A. (2002). Categorical Data Analysis. John-Wiley.
suncoolsu

Thanks for the comment. I know there is some treatment of the chi-squared statistic in Agresti, but don't recall how far he takes it. He may just appeal to the asymptotic equivalence with the likelihood ratio statistic.
cardinal

I don't know if you'll find the proof above in any text. I haven't seen the use of the full (degenerate) covariance matrix and its properties elsewhere. The usual treatment looks at the (nondegenerate) distribution of the first k1 coordinates and then uses the inverse covariance matrix (which has a nice form, but one which is not immediately obvious) and some (somewhat) tedious algebra to establish the result.
cardinal

Your answer begins by defining a set of X's but then defines the statistic in terms of S's. Can you include something in the answer that indicates how the variables you define at the start and the variables in the statistic are related?
Glen_b -Reinstate Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.