Lojistik regresyonda uyum iyiliği testi; hangi 'uygun' testi yapmak istiyoruz?


12

Soruya ve cevaplarına atıfta bulunuyorum: Lojistik regresyondan geliştirilen modellerin tahmin yeteneği nasıl karşılaştırılır? @Clark Chong ve @Frank Harrell tarafından cevaplar / yorumlar. ve Hosmer-Lemeshow testinde serbestlik dereceleriχ2 ve yorumlar.

Ben kağıt okuma var Medicine, Vol DW Hosmer, T. Hosmer, S. Le Cessie, S. Lemeshow, "lojistik regresyon modeli için iyilik-of-fit testlerin bir karşılaştırma", İstatistik. 16, 965-980 (1997) 'de tarif edilmiştir .

Ben anılacaktır soru için açıkça sorar çünkü karıştı Bence olduğunu "(olasılık) öngörü yeteneği", okuduktan sonra aynı değildir gazetede iyilik-of-fit-testler nişan Supra neyi gibidir:

Çoğumuzun bildiği gibi, lojistik regresyon açıklayıcı değişkenler ve başarı olasılığı arasında S-şekilli bir bağlantı olduğunu varsayar, S-şekli için fonksiyonel form

P(y=1|xi)=11+e(β0+iβixi)

Hosmer-Lemeshow testinde herhangi bir eksiklik olduğunu iddia etmeden, (a) '(olasılık) öngörme yeteneği ' ve (b) ' uyum iyiliği ' testleri arasında ayrım yapmak zorunda olduğumuzu düşünüyorum .

Birincisinin amacı olasılıkların iyi tahmin edilip edilmediğini test etmek, uyum iyiliği testleri ise yukarıdaki S şekilli fonksiyonun 'doğru' fonksiyon olup olmadığını test etmektir. Daha resmi:

  1. 'olasılık tahmin yeteneği testleri' için testler , başarı olasılıklarının model tarafından iyi tahmin edildiğini belirten bir sahiptir ;H0
  2. uyum iyiliği testleri için (bakınız Hosmer ve ark.), S-şekilli fonksiyonel form doğru olmasıdır. Hosmer ve diğ. Bağlantı işlevinin yanlış olduğu veya paydadaki üssünün doğrusal olmadığı için null değerinden iki tür sapmayı saptama gücünü buldukları simülasyonlar gerçekleştirin.H0

Açıkçası, yukarıdaki fonksiyon 'doğru' fonksiyonel forma sahipse (eğer testler uygunluk testi için kabul sonucuna ), tahmin edilen olasılıklar iyi olacaktır, ...H0

İlk açıklama

... ancak kabul etmek , sıfır hipotezini reddedemezsek ne olur? bölümünde açıklandığı gibi zayıf bir sonuçtur. .H0

İlk soru

Sahip olduğum en önemli soru / uygunluk, eğer uygunluk reddedilirse, testin sonucu fonksiyonel formun 'doğru' olmadığıdır, ancak bu olasılıkların iyi tahmin edilmiyor mu?H0

İkinci soru

Ayrıca, Hosmer ve ark. al; (Soyuttan alıntı yapıyorum):

'' Doğru modelin kuadratik bir terimi olduğunda ancak sadece doğrusal terimi içeren bir modelin uygun olduğu testlerin performansının incelenmesi, Pearson ki-kare, ağırlıksız kareler toplamı, Hosmer-Lemeshow decile olduğunu gösterir. risk, düzeltilmiş artık kareler toplamı ve Stukel'in puan testi, örnek boyutu 100 olduğunda doğrusallıktan orta dereceli kalkışları tespit etmek için yüzde 50'yi aşan güce sahiptir ve 500 büyüklüğündeki numuneler için aynı alternatifler için yüzde 90'ın üzerinde güce sahiptir. Doğru modelin, dikotom ve sürekli eş değişken arasında bir etkileşimi olduğunda tüm testlerde güç yoktu, ancak yalnızca sürekli eş değişken model uyguntu. Yanlış belirtilen bir bağlantıyı algılama gücü 100 boyutlu örnekler için zayıftı. 500 Stukel 'boyutlu örnekler için s skor testi en iyi güce sahipti, ancak asimetrik bir bağlantı fonksiyonunu tespit etmek sadece yüzde 50'yi aştı. Ağırlıksız toplam kare testinin yanlış belirlenmiş bağlantı işlevini algılama gücü Stukel'in puan testinden biraz daha azdı ''

Hangi testin daha fazla güce sahip olduğu veya Hosmer-Lemeshow'un daha az güce sahip olduğu sonucuna varabilir miyim (bu spesifik anomalileri tespit etmek için)?

İkinci açıklama

Hosmer ve ark. ark. yukarıda bahsettiğim, belirli anomalileri tespit etmek için gücü hesaplayın (simüle edin) (güç sadece bir belirtildiğinde hesaplanabilir ). Bu bence bu sonuçların 'tüm olası alternatiflerine' genelleştirilebileceği anlamına gelmiyor mu?H 1H1H1

Yanıtlar:


5

"Uyum iyiliği" bazen bir anlamda belirgin model yanlış belirtiminin aksine, "uyum eksikliği" olarak kullanılır; & bazen başka bir anlamda bir modelin öngörücü performansı olarak - tahminlerin gözlemlerle ne kadar iyi eşleştiği. Hosmer – Lemeshow testi ilk anlamda uyum iyiliği içindir ve uyum eksikliği kanıtı tahmin performansını (her ne kadar Nagelkerke'nin veya Brier skorları ile ölçülen GoF ikinci anlamda ) geliştirebileceğini düşünse de, belirli iyileştirmeleri nasıl deneyimlediğinize kadar ne kadar veya ne kadar akıllıca olduğunu (tipik olarak etkileşim terimleri dahil ederek veya logit ile eğrisel bir ilişkiye izin vermek için sürekli öngörücüleri temsil etmek için bir spline veya polinom temeli; bazen bağlantıyı değiştirerek).R2

Uygunluk testlerinin, belirli bir alternatife karşı yüksek güçten ziyade, çeşitli alternatiflere karşı makul bir güce sahip olması amaçlanmıştır; bu yüzden farklı testlerin gücünü karşılaştıran insanlar, potansiyel kullanıcılar için özellikle ilgi çekici olduğu düşünülen birkaç alternatif seçme pragmatik yaklaşımını benimseme eğilimindedir (örneğin, sıkça atıfta bulunulan Stephens (1974), "Uyum iyiliği için EDF istatistikleri & bazı karşılaştırmalar ", JASA, 69 , 347 ). Tüm olası alternatiflere karşı bir testin diğerinden daha güçlü olduğu sonucuna varamazsınız çünkü bazılarına karşı daha güçlüdür.


1
Bazı durumlarda, bir testin 'eşit olarak daha güçlü' olduğu gösterilebilir, bu da tüm olası alternatifler için daha güçlü olduğu anlamına gelir (cfr Karlin / Rubin teoremi). Ancak bunun sadece istisnai durumlarda olduğu ve kesinlikle Hosmer-Lemeshow testi ortamında olmadığı konusunda haklısınız.

4
Genel olarak, "uyum iyiliği" IMHO'ya çok fazla vurgu yapılır. Daha iyi bir alternatif, modelin öne oturmasını sağlamaktır. Bu, doğrusallık varsayımlarını gevşetmek için regresyon spline'ları kullanılarak ve anlamlı olabilecek etkileşimler dahil edilerek yapılır.
Frank Harrell

2
@fcoppens: İyi nokta! UMP testlerini sadece göz önünde bulundurulan alternatifleri bir skaler parametrenin değerleriyle ciddi şekilde kısıtlayarak alırsınız, hatta her zaman değil. Bir testin kabul edilemez olup olmadığına bakılmaksızın - tüm alternatifler altında daha fazla güce sahip en az bir test daha var - genel amaçlı bir GOF testi için alternatiflerin çok fazla kısıtlanmasını gerektirecektir.
Scortchi - Monica'yı eski durumuna döndürün
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.