Bahsettiğiniz teorem (olağan azaltma bölümü "tahmini parametreler nedeniyle serbestlik derecelerinin azaltılması") çoğunlukla RA Fisher tarafından savundu. “Acil Durum Tablolarından Chi Meydanı'nın yorumlanması ve P'nin Hesaplanması” nda (1922) kuralını ve 'Regresyon formüllerinin uygunluğunu' ( 1922) regresyonda kullanılan verilerden beklenen değerleri elde etmek için kullanılan parametre sayısı ile serbestlik derecelerini düşürmeyi savunur. (İnsanların ki-kare testini, yanlış özgürlük dereceleriyle, 1900 yılında piyasaya sürüldüğünden bu yana yirmi yıldan fazla bir süre boyunca yanlış kullandıklarına dikkat etmek ilginç).(R−1)∗(C−1)
Sizin durumunuz ikinci türden (gerileme) ve eski türden (beklenmedik durum tablosu) değil, ikisi de parametreler üzerindeki doğrusal kısıtlamalar olmaları ile ilgili olsa da.
Beklenen değerleri gözlemlediğiniz değerleri temel alarak modellediğiniz ve bunu iki parametreli bir modelle yaptığınız için, serbestlik derecelerindeki 'olağan' azalma iki artı birdir (O_i'nin toplaması gereken bir ekstra çünkü başka bir lineer kısıtlama olan bir toplam, ve modellenen beklenen değerlerin 'verimliliği' nedeniyle üç yerine iki yerine, etkili bir şekilde sonuçlanır).
Ki-kare testi, sonucun beklenen verilere ne kadar yakın olduğunu ifade etmek için bir uzaklık ölçüsü olarak kullanır . Ki-kare testlerinin birçok versiyonunda bu 'mesafenin' dağılımı normal dağılmış değişkenlerdeki sapmaların toplamı ile ilgilidir (sadece sınırda doğrudur ve normal olmayan dağılmış verilerle uğraşıyorsanız yaklaşık değerlerdir). .χ2
Çok değişkenli normal dağılım için yoğunluk fonksiyonu ile ilgilidir ileχ2
f(x1,...,xk)=e−12χ2(2π)k|Σ|√
ile x'in kovaryans matrisinin determinantı|Σ|x
ve , Σ = I ise Euclidian mesafesine indirgenmiş mahalanobis mesafesidir .χ2=(x−μ)TΣ−1(x−μ)Σ=I
Onun 1900 makalesinde Pearson iddia -levels sferoidler ve o örneğin bir değer entegre edilmesi için küresel koordinatlar dönüşümü olabilir P ( χ 2 > a ) . Tek bir integral olur.χ2P(χ2>a)
Doğrusal kısıtlamalar mevcut olduğunda, serbestlik derecelerinin azaltılmasının anlaşılmasına yardımcı olabilecek bu uzaklık ,, 2 uzaklık ve yoğunluk fonksiyonunda bir terim olan bu geometrik .χ2
İlk önce 2x2 beklenmedik durum tablosu durumu . Dört değerin O i - E i olduğunu fark etmelisiniz. olmayandörtbağımsız normal dağıtılmış değişkenler. Bunun yerine birbirleriyle ilgilidirler ve tek bir değişkene kaynarlar.Oi−EiEi
Masayı kullanalım
Oij=o11o21o12o22
o zaman beklenen değerler
Eij=e11e21e12e22
Daha sonra, sabit burada ∑oij−eijeijeijoijoe
−−(o11−e11)(o22−e22)(o21−e21)(o12−e12)====o11−(o11+o12)(o11+o21)(o11+o12+o21+o22)
and they are effectively a single variable rather than four. Geometrically you can see this as the χ2 value not integrated on a four dimensional sphere but on a single line.
Note that this contingency table test is not the case for the contingency table in the Hosmer-Lemeshow test (it uses a different null hypothesis!). See also section 2.1 'the case when β0 and β–– are known' in the article of Hosmer and Lemshow. In their case you get 2g-1 degrees of freedom and not g-1 degrees of freedom as in the (R-1)(C-1) rule. This (R-1)(C-1) rule is specifically the case for the null hypothesis that row and column variables are independent (which creates R+C-1 constraints on the oi−ei values). The Hosmer-Lemeshow test relates to the hypothesis that the cells are filled according to the probabilities of a logistic regression model based on four parameters in the case of distributional assumption A and p+1 parameters in the case of distributional assumption B.
Second the case of a regression. A regression does something similar to the difference o−e as the contingency table and reduces the dimensionality of the variation. There is a nice geometrical representation for this as the value yi can be represented as the sum of a model term βxi and a residual (not error) terms ϵi. These model term and residual term each represent a dimensional space that is perpendicular to each other. That means the residual terms ϵi can not take any possible value! Namely they are reduced by the part which projects on the model, and more particular 1 dimension for each parameter in the model.
Maybe the following images can help a bit
Below are 400 times three (uncorrelated) variables from the binomial distributions B(n=60,p=1/6,2/6,3/6). They relate to normal distributed variables N(μ=n∗p,σ2=n∗p∗(1−p)). In the same image we draw the iso-surface for χ2=1,2,6. Integrating over this space by using the spherical coordinates such that we only need a single integration (because changing the angle does not change the density), over χ results in ∫a0e−12χ2χd−1dχ in which this χd−1 part represents the area of the d-dimensional sphere. If we would limit the variables χ in some way than the integration would not be over a d-dimensional sphere but something of lower dimension.
The image below can be used to get an idea of the dimensional reduction in the residual terms. It explains the least squares fitting method in geometric term.
In blue you have measurements. In red you have what the model allows. The measurement is often not exactly equal to the model and has some deviation. You can regard this, geometrically, as the distance from the measured point to the red surface.
The red arrows mu1 and mu2 have values (1,1,1) and (0,1,2) and could be related to some linear model as x = a + b * z + error or
⎡⎣⎢x1x2x3⎤⎦⎥=a⎡⎣⎢111⎤⎦⎥+b⎡⎣⎢012⎤⎦⎥+⎡⎣⎢ϵ1ϵ2ϵ3⎤⎦⎥
so the span of those two vectors (1,1,1) and (0,1,2) (the red plane) are the values for x that are possible in the regression model and ϵ is a vector that is the difference between the observed value and the regression/modeled value. In the least squares method this vector is perpendicular (least distance is least sum of squares) to the red surface (and the modeled value is the projection of the observed value onto the red surface).
So this difference between observed and (modelled) expected is a sum of vectors that are perpendicular to the model vector (and this space has dimension of the total space minus the number of model vectors).
In our simple example case. The total dimension is 3. The model has 2 dimensions. And the error has a dimension 1 (so no matter which of those blue points you take, the green arrows show a single example, the error terms have always the same ratio, follow a single vector).
I hope this explanation helps. It is in no way a rigorous proof and there are some special algebraic tricks that need to be solved in these geometric representations. But anyway I like these two geometrical representations. The one for the trick of Pearson to integrate the χ2 by using the spherical coordinates, and the other for viewing the sum of least squares method as a projection onto a plane (or larger span).
I am always amazed how we end up with o−ee, this is in my point of view not trivial since the normal approximation of a binomial is not a devision by e but by np(1−p) and in the case of contingency tables you can work it out easily but in the case of the regression or other linear restrictions it does not work out so easily while the literature is often very easy in arguing that 'it works out the same for other linear restrictions'. (An interesting example of the problem. If you performe the following test multiple times 'throw 2 times 10 times a coin and only register the cases in which the sum is 10' then you do not get the typical chi-square distribution for this "simple" linear restriction)