Hosmer-Lemeshow testinde


33

Bir lojistik regresyon modelinin uyum iyiliği (GOF) için Hosmer-Lemeshow testi (HLT) için test istatistiği şöyle tanımlanır:

Numune daha sonra ayrılır d=10 , Deciles D1,D2,,Dd , bir Hesaplamalar dilimde aşağıdaki miktarlarda başına:

  • O1d=iDdyi , örneğin, dilimde pozitif vaka gözlenen sayısıDd ;
  • O0d=iDd(1yi) , yani dilimde negatif durumda gözlenen sayısı ;Dd
  • E1d=iDdπ^i , yani tahmini pozitif vaka sayısı ;Dd
  • E0d=iDd(1π^i) , yani tahmini negatif vaka sayısı ;Dd

nerede için gözlemlenen ikili sonuçtur -inci gözlem ve o gözlem için tahmini olasılık. ı π iyiiπ^i

Daha sonra test istatistiği şöyle tanımlanır:

X2=h=01g=1d((OhgEhg)2Ehg)=g=1d(O1gngπ^gng(1π^g)π^g)2,

nerede dilimde ortalama tahmini olasılığıdır ve izin dilimdekilerden şirketlerin sayı.grngπ^ggng

Hosmer-Lemeshow'a göre ( bu bağlantıya bakın ), bu istatistik (belirli varsayımlar altında) serbestlik derecesine sahip bir dağılımına sahiptir . χ2(d2)

Öte yandan , satırlı (desilelere karşılık gelen) ve 2 sütunlu (doğru / yanlış ikili sonuçlara karşılık gelen) bir beklenmedik durum tablosu tanımlarsam, o zaman bu beklenme tablosu için testi için test istatistiği gibi aynı , yukarıda tanımlandığı gibidir, ancak, acil durum tablo halinde, bu test istatistik ile serbestlik derecesi . Yani bir derece serbestlik daha !χ 2 X 2 χ 2 ( d - 1 ) ( 2 - 1 ) = d - 1dχ2X2χ2(d1)(21)=d1

Bu farklılığı serbestlik derecelerinde nasıl açıklayabiliriz?

EDIT: yorumları okuduktan sonra yapılan eklemeler:

@whuber

(Bkz. Hosmer DW, Lemeshow S. (1980), Çoklu lojistik regresyon modeli için uygunluk testi ). (1) parametrelerin gruplanmamış veriler için olasılık fonksiyonlarını kullanarak tahmin edilmesi ve (2) 2xg tablosundaki frekansların, tahmin edilen parametrelere bağlı olduğunu, yani hücrelerin rasgele olduğunu, uygun düzenlilik koşulları altında, (1) ve (2) altındaki uygun istatistiklerin durumu, tahmini parametreler ve ağırlıklı ki-kare değişkenlerin toplamı nedeniyle olağan serbestlik derecelerinin azaltılmasıyla birlikte merkezi bir ki-karedir.

Daha sonra, makalelerini iyi anlarsam, bu 'düzeltme terimi' için, eğer iyi anlarsam ki-kare rasgele değişkenlerin ağırlıklı toplamı olduğunu ve bu simülasyonları yaparak bunu yaptığını söyleyen bir yaklaşım bulmaya çalışırlar. orada ne dediklerini tam olarak anlamadığımı itiraf etmeliyim, bu yüzden sorumu; Bu hücreler neden rastgele, bu özgürlük derecelerini nasıl etkiler? Hücrelerin sınırlarını düzeltirsem ve sonra sabit puanlardaki gözlemleri tahmini puanlara göre sınıflandırsam, bu durumda hücrenin 'içeriği' olmasına rağmen hücrelerin rastgele olmadığı durumlarda farklı olur mu?

@Frank Harell: Aşağıdaki yorumlarınızda bahsettiğiniz Hosmer-Lemeshow testinin 'eksiklikleri'nin sadece chi-karelerin ağırlıklı toplamının yaklaştırılmasının bir sonucu olması mümkün değil mi?


9
Kitap, bu testin ayrıntılı bir açıklamasını ve bunun temelini içerir. Sorunuz tam olarak 145-149 s. testlerinde serbestlik derecelerinin belirlenmesi ince bir şeydir, çünkü bu testlerin çoğu yaklaşımlar (ilk etapta) ve bu yaklaşımlar sadece görünüşte küçük teknik koşullar uygulandığında iyidir. Bütün bunların bir tartışması için bkz. Stats.stackexchange.com/a/17148 . H&L tamamen pratik bir rota izlemiştir: d - 2 DF'nin önerilerini “kapsamlı bir simülasyonlar dizisine” dayandırırlar. χ2d2
whuber

4
Bu test artık (1) güç yetersizliği, (2) sürekli olasılıkların giderilmesi ve (3) kazanma seçiminde ve çürüme tanımlama seçiminde keyfi olması nedeniyle eski kabul edilmektedir. Hosmer - le Cessie 1 df testi veya Spiegelhalter testi önerilir. Örneğin, R rmspaketi residuals.lrmve val.probişlevleri bölümüne bakınız .
Frank Harrell

2
@Frank Harell: (a) Hosmer-Lemeshow testi bile modası geçmiş olsa da, ile farkı anlamak hala ilginçtir ve (b) Spiegelhalter testinin Hosmer'den daha fazla güce sahip olduğunu gösteren bir referansınız var mı? - Gösteri testi mi? χ2

2
Bu konular IMHO’nun orjinal soruya kıyasla çok küçük.
Frank Harrell

3
Ayrıntılar bu sitede başka bir yerde görünüyor. Kısaca, (1) Hosmer, testin keyfi olduğunu gösterdi - desilelerin nasıl hesaplandığına çok hassas; (2) gücü yok. Binkili kalibrasyon eğrisini (pürüzsüz bir kalibrasyon eğrisinin aksine) çizerek ve atlamaları dikkate alarak kesin olmayan miktarlara dayandığını görebilirsiniz. Ayrıca, aşırı fazla takma için düzgün şekilde ceza almaz.
Frank Harrell

Yanıtlar:


2

Hosmer DW, Lemeshow S. (1980), Çoklu lojistik regresyon modeli için uygunluk testi. İstatistiklerdeki İletişim, A10, 1043-1069 şunları göstermektedir:

Model, bir lojistik regresyon modeli ise ve parametreleri maksimum olabilirlik tahmin edilir ve G grupları tahmin edilen olasılıklar tanımlanan sonra burada geçerli olan X- 2 asimptotik bir χ 2 ( G - p - 1 ) + Σ p + 1 i = 1 λ i χ 2 i ( 1 ) (Hosmer, Lemeshow, 1980, p.1052, teoremi 2).pGX2χ2(Gp1)+i=1p+1λiχi2(1)

(Not: gerekli şartlar açıkça 1052. sayfadaki Teorem 2'de değildir, ancak biri dikkatle kağıdı ve ispatı dikkatle okursa, bunlar açılır)

İkinci terim gruplama tahmin dayanır göstermesi gerçeğinden kaynaklanmaktadır - yani rastgele - miktarlarda (Hosmer, Lemeshow, 1980, p.1051)i=1p+1λiχi2(1)

Simülasyonlar kullanılması da gösterdi ikinci dönem olabilir bir yaklaşılır (simualtion kullanılan durumlarda) (Hosmer, Lemeshow, 1980, p.1060)χ2(p1)

İki bir miktar, bu iki olgu sonuçları birleştirmek değişken ile bir G - p - 1 ile özgürlük ve ikinci bir dereceleri p - 1 serbestlik dereceleri veya X 2 ~ χ 2 ( G - p - 1 + p - 1 = G - 2 )χ2Gp1p1X2χ2(Gp1+p1=G2)

Dolayısıyla, sorunun cevabı 'ağırlıklı ki-kare terimi' varken ya da grupların kendileri rasgele değişkenler olan tahmini olasılıklar kullanılarak tanımlanmış olmalarından kaynaklanmaktadır.

Ayrıca bakınız Hosmer Lemeshow (1980) Makale - Teorem 2


Ağırlıklı ki-kare teriminin 'oluşunda soru yalanlara cevap Yani '' ve gruplar rastgele değişkenler kendileri tahmini olasılıklar kullanılarak tanımlandığını aslında.' A ) Tahmini olasılıklar , beklenmedik durum tablosundaki durum için temel farkı yaratan fazladan bir p + 1 azaltma elde etmenizi sağlar (ki burada sadece g terimleri tahmin edilir). B ) Ağırlıklı ki-kare terimi bir düzeltme olarak oluşur, çünkü tahmin bir tahmin tahmini veya eşit derecede verimli değildir ve bu, azaltma etkisinin (p + 1) 'den daha az ekstra olmasını sağlar.
Sextus Empiricus

@Martijn Weterings: Bu yorumda söylediklerinizin, cevabınızda söylediklerinizle tamamen aynı değil (tamamen farklı söylememek) olmadığı sonucuna varırsam haklı mıyım? Yorumunuz, df'nin olduğu sonucuna mı yol açıyor ? G2

Benim cevabım, “ bu acil durum tablosu için testi için test istatistiği” temeline dayanan muhakeme ile karşılaştırıldığında, serbestlik derecelerindeki farkın ardındaki sezgiyi açıklıyor, neden farklı olduklarını açıklıyor (sabit hücreleri tahmin ediyor). Df'nin G-3 olacağı sonucuna varacağınız “olağan indirim” e odaklanır. Ancak, “olağan indirim” için belirli koşullar yerine getirilmemiştir. Bu nedenle (rastgele hücreler), düzeltilmiş ağırlıklı ki-kare terimi ile daha karmaşık terimler elde edersiniz ve etkili bir şekilde G-2 ile sonuçlanırsınız. Tamamen farklı olmaktan uzak. χ2
Sextus Empiricus

@ Martijn Weterings, üzgünüm ama cevap veremem çünkü cevabınızda 'rastgele hücreler' gibi bir fikir göremiyorum, yani güzel fotoğraflarınızdan mı bahsediyorsunuz (ve bunu kastediyorum, çok güzeller) 'rastgele hücreler' hakkında bir şey mi, yoksa cevabımı okuduktan sonra bu fikre ulaştınız mı?

Üzülme HL testindeki cevabımın tam olarak serbestlik derecelerini gösteren kesin bir cevap olmadığı konusunda hemfikirim. Bunun için üzgünüm. Sahip olduğunuz Chernoff Lehman istatistiğidir (rastgele hücrelere sahip), k - s - 1 i = 1 χ 2 ( 1 ) + k - 1 i = k - s λ i χ 2 i ( 1 ) izler.i=1ks1χ2(1)+i=ksk1λiχi2(1)dağılımı. Şu anda sizi rahatsız eden şeyin ne olduğu henüz belli değil, umarım bu konuda daha yapıcı olabilirsiniz. Her şeyin açıklanmasını istiyorsanız, zaten bunun için makaleleri var. Cevabım , beklenmedik durum tablosu testindeki temel farkı açıklayan i ele aldı . i=1ks1χ2(1)
Sextus Empiricus

2

Bahsettiğiniz teorem (olağan azaltma bölümü "tahmini parametreler nedeniyle serbestlik derecelerinin azaltılması") çoğunlukla RA Fisher tarafından savundu. “Acil Durum Tablolarından Chi Meydanı'nın yorumlanması ve P'nin Hesaplanması” nda (1922) kuralını ve 'Regresyon formüllerinin uygunluğunu' ( 1922) regresyonda kullanılan verilerden beklenen değerleri elde etmek için kullanılan parametre sayısı ile serbestlik derecelerini düşürmeyi savunur. (İnsanların ki-kare testini, yanlış özgürlük dereceleriyle, 1900 yılında piyasaya sürüldüğünden bu yana yirmi yıldan fazla bir süre boyunca yanlış kullandıklarına dikkat etmek ilginç).(R1)(C1)

Sizin durumunuz ikinci türden (gerileme) ve eski türden (beklenmedik durum tablosu) değil, ikisi de parametreler üzerindeki doğrusal kısıtlamalar olmaları ile ilgili olsa da.

Beklenen değerleri gözlemlediğiniz değerleri temel alarak modellediğiniz ve bunu iki parametreli bir modelle yaptığınız için, serbestlik derecelerindeki 'olağan' azalma iki artı birdir (O_i'nin toplaması gereken bir ekstra çünkü başka bir lineer kısıtlama olan bir toplam, ve modellenen beklenen değerlerin 'verimliliği' nedeniyle üç yerine iki yerine, etkili bir şekilde sonuçlanır).


Ki-kare testi, sonucun beklenen verilere ne kadar yakın olduğunu ifade etmek için bir uzaklık ölçüsü olarak kullanır . Ki-kare testlerinin birçok versiyonunda bu 'mesafenin' dağılımı normal dağılmış değişkenlerdeki sapmaların toplamı ile ilgilidir (sadece sınırda doğrudur ve normal olmayan dağılmış verilerle uğraşıyorsanız yaklaşık değerlerdir). .χ2

Çok değişkenli normal dağılım için yoğunluk fonksiyonu ile ilgilidir ileχ2

f(x1,...,xk)=e12χ2(2π)k|Σ|

ile x'in kovaryans matrisinin determinantı|Σ|x

ve , Σ = I ise Euclidian mesafesine indirgenmiş mahalanobis mesafesidir .χ2=(xμ)TΣ1(xμ)Σ=I

Onun 1900 makalesinde Pearson iddia -levels sferoidler ve o örneğin bir değer entegre edilmesi için küresel koordinatlar dönüşümü olabilir P ( χ 2 > a ) . Tek bir integral olur.χ2P(χ2>a)


Doğrusal kısıtlamalar mevcut olduğunda, serbestlik derecelerinin azaltılmasının anlaşılmasına yardımcı olabilecek bu uzaklık ,, 2 uzaklık ve yoğunluk fonksiyonunda bir terim olan bu geometrik .χ2

İlk önce 2x2 beklenmedik durum tablosu durumu . Dört değerin O i - E i olduğunu fark etmelisiniz. olmayandörtbağımsız normal dağıtılmış değişkenler. Bunun yerine birbirleriyle ilgilidirler ve tek bir değişkene kaynarlar.OiEiEi

Masayı kullanalım

Oij=o11o12o21o22

o zaman beklenen değerler

Eij=e11e12e21e22

Daha sonra, sabit burada oijeijeijeijoijoe

(o11e11)=(o22e22)=(o21e21)=(o12e12)=o11(o11+o12)(o11+o21)(o11+o12+o21+o22)

and they are effectively a single variable rather than four. Geometrically you can see this as the χ2 value not integrated on a four dimensional sphere but on a single line.

Note that this contingency table test is not the case for the contingency table in the Hosmer-Lemeshow test (it uses a different null hypothesis!). See also section 2.1 'the case when β0 and β_ are known' in the article of Hosmer and Lemshow. In their case you get 2g-1 degrees of freedom and not g-1 degrees of freedom as in the (R-1)(C-1) rule. This (R-1)(C-1) rule is specifically the case for the null hypothesis that row and column variables are independent (which creates R+C-1 constraints on the oiei values). The Hosmer-Lemeshow test relates to the hypothesis that the cells are filled according to the probabilities of a logistic regression model based on four parameters in the case of distributional assumption A and p+1 parameters in the case of distributional assumption B.

Second the case of a regression. A regression does something similar to the difference oe as the contingency table and reduces the dimensionality of the variation. There is a nice geometrical representation for this as the value yi can be represented as the sum of a model term βxi and a residual (not error) terms ϵi. These model term and residual term each represent a dimensional space that is perpendicular to each other. That means the residual terms ϵi can not take any possible value! Namely they are reduced by the part which projects on the model, and more particular 1 dimension for each parameter in the model.


Maybe the following images can help a bit

Below are 400 times three (uncorrelated) variables from the binomial distributions B(n=60,p=1/6,2/6,3/6). They relate to normal distributed variables N(μ=np,σ2=np(1p)). In the same image we draw the iso-surface for χ2=1,2,6. Integrating over this space by using the spherical coordinates such that we only need a single integration (because changing the angle does not change the density), over χ results in 0ae12χ2χd1dχ in which this χd1 part represents the area of the d-dimensional sphere. If we would limit the variables χ in some way than the integration would not be over a d-dimensional sphere but something of lower dimension.

graphical representation of chi^2

The image below can be used to get an idea of the dimensional reduction in the residual terms. It explains the least squares fitting method in geometric term.

In blue you have measurements. In red you have what the model allows. The measurement is often not exactly equal to the model and has some deviation. You can regard this, geometrically, as the distance from the measured point to the red surface.

The red arrows mu1 and mu2 have values (1,1,1) and (0,1,2) and could be related to some linear model as x = a + b * z + error or

[x1x2x3]=a[111]+b[012]+[ϵ1ϵ2ϵ3]

so the span of those two vectors (1,1,1) and (0,1,2) (the red plane) are the values for x that are possible in the regression model and ϵ is a vector that is the difference between the observed value and the regression/modeled value. In the least squares method this vector is perpendicular (least distance is least sum of squares) to the red surface (and the modeled value is the projection of the observed value onto the red surface).

So this difference between observed and (modelled) expected is a sum of vectors that are perpendicular to the model vector (and this space has dimension of the total space minus the number of model vectors).

In our simple example case. The total dimension is 3. The model has 2 dimensions. And the error has a dimension 1 (so no matter which of those blue points you take, the green arrows show a single example, the error terms have always the same ratio, follow a single vector).

graphical representation of regression dimension reduction


I hope this explanation helps. It is in no way a rigorous proof and there are some special algebraic tricks that need to be solved in these geometric representations. But anyway I like these two geometrical representations. The one for the trick of Pearson to integrate the χ2 by using the spherical coordinates, and the other for viewing the sum of least squares method as a projection onto a plane (or larger span).

I am always amazed how we end up with oee, this is in my point of view not trivial since the normal approximation of a binomial is not a devision by e but by np(1p) and in the case of contingency tables you can work it out easily but in the case of the regression or other linear restrictions it does not work out so easily while the literature is often very easy in arguing that 'it works out the same for other linear restrictions'. (An interesting example of the problem. If you performe the following test multiple times 'throw 2 times 10 times a coin and only register the cases in which the sum is 10' then you do not get the typical chi-square distribution for this "simple" linear restriction)


2
In my honest opinion this answer has very nice figures and arguments that are related to χ2 test but it has not so much to do with the question which is about the Hosmer-Lemeshow test for a logistic regression. You are arguing something with a regression where 1 parameters is estimated but the Hosmer-Lemeshow test is about a logistic regression where p>1 parameters are estimated. See also stats.stackexchange.com/questions/296312/…

... and, as you say, you end up with an e in the denominator and not with a np(1p) , so this does not answer this question. Hence I have to downvote, sorry (but the graphs are very nice :-) ).

You were asking in a comment for "to understand the formula or at least the 'intuitive' explanation". So that is what you get with these geometrical interpretations. To calculate exactly how these np(1p) cancel out if you add both the positive and negative cases is far from intuitive and does not help you understand the dimensions.
Sextus Empiricus

In my answer I used the typical (d1p) degrees of freedom and assumed that the regression was performed with one parameter (p=1), which was a mistake. The parameters in your references are two, a β0 and β. These two parameters would have reduced the dimensionality to d-3 if only the proper conditions (efficient estimate) would have been met (see for instance again a nice article from Fisher 'The conditions under which the chi square measures the discrepancy between observation and hypothesis')....
Sextus Empiricus

....anyway, I explained why we don't get dimension d-1 (and should instead expect something like d-3, if you put two parameters in the regression) and how the dimensional reduction by an efficient estimate can be imagined. It is the Moore-Spruill article that works out the extra terms (potentially increasing the effective degrees of freedom) due to that inefficiency and it is the Hosmer-Lemeshow simulation that shows that d-2 works best. That theoretical work is far from intuitive and the simulation is far from exact. My answer is just the requested explanation for the difference with d-1.
Sextus Empiricus
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.