Lojistik regresyon için teşhis?


74

Doğrusal regresyon için, doğrusal regresyon varsayımlarının ihlal edilip edilmediğini kontrol etmek için teşhis grafiklerini (artıklar grafikleri, Normal QQ grafikleri, vb.) Kontrol edebiliriz.

Lojistik regresyon için, lojistik regresyon modelinin uygunluğunun nasıl teşhis edileceğini açıklayan kaynakları bulmakta güçlük çekiyorum. GLM için bazı ders notları kazmak, sadece kalıntıları kontrol etmenin lojistik bir regresyon uyumu için tanı koymak için yardımcı olmadığını belirtir.

İnternet etrafına bakarken, model sapmasını kontrol etmek ve ki-kare testleri yapmak gibi çeşitli "teşhis" prosedürleri var gibi gözüküyor, ancak diğer kaynaklar bunun uygun olmadığını ve Hosmer-Lemeshow uyum iyiliği uygulamanız gerektiğini belirtiyor Ölçek. Sonra bu testin gerçek gruplamalara ve kesme değerlerine bağlı olabileceğini belirten başka kaynaklar buldum (güvenilir olmayabilir).

Öyleyse, lojistik regresyonun nasıl uygun olduğu teşhis edilmelidir?


1
Stats.stackexchange.com/questions/29271/… veya stats.stackexchange.com/questions/44643/… ' nin muhtemel kopyası ( ikisi de sizin için gerçekten çözülecek cevaplara sahip olmasa da ) .
Peter Ellis,

1
Scott Menard'ın çok uzun zaman önce bütünüyle internette ücretsiz olarak bulunan monografını okumanızı öneririm.
rolando2

2
Lojistik regresyon için uygunluk önlemleriyle ilgili bu soru faydalı olabilir (uygunluk elbette model tanılamanın sadece küçük bir kısmı olsa da): stats.stackexchange.com/questions/3559/logistic-regression-which-pseudo-r- kare-ölçmek-bir-bir-rapor-cox / 3570
Stephan Kolassa

Yanıtlar:


39

Lojistik regresyon modellerinin uygunluğunu değerlendirmek için rastladığım birkaç yeni teknik, siyaset bilimi dergilerinden geliyor:

  • Greenhill, Brian, Michael D. Ward ve Audrey Çuvalları. 2011. Ayırma grafiği: İkili modellerin uygunluğunu değerlendirmek için yeni bir görsel yöntem. Amerikan Siyaset Bilimi Dergisi 55 (4): 991-1002 .
  • Esarey, Justin ve Andrew Pierce. 2012. İkili bağımlı değişken modellerinde uygunluk kalitesinin değerlendirilmesi ve hatalı özelliklerin test edilmesi. Siyasi Analiz 20 (4): 480-500 . PDF'yi buradan hazırlayın

Bu tekniklerin her ikisi de Uyum İyiliği testlerinin yerine geçmesini (Hosmer ve Lemeshow gibi) ve olası yanlış spesifikasyonları (özellikle de denklemde yer alan değişkenlerde doğrusal olmayan) tanımlamayı önerir. Bunlar, tipik R kare uyum ölçüleri sık sık eleştirildiği için özellikle kullanışlıdır .

Yukarıdaki makalelerin her ikisi de, tahmin edilen olasılıkları ve parsellerde gözlemlenen sonuçları kullanmaktadır - bu tür modellerde artık bir şeyin kalıntısı net değildir . Kalıntı örnekleri, log olasılığına ya da Pearson kalıntılarına katkı olabilir (daha çok olsa da olduğuna inanıyorum). Genellikle ilgi çekici olan (artık olmasa da) başka bir önlem DFBeta'dır (gözlem modelden çıkarıldığında bir katsayı tahmini tutarı). Diğer potansiyel tanı prosedürleriyle birlikte Lojistik Regresyon Teşhisi hakkındaki bu UCLA sayfası için Stata'daki örneklere bakın .

Kullanışlı değilim, ama J. Scott Long'un Kategorik ve Sınırlı Bağımlı Değişkenler için Regresyon Modellerinin tüm bu farklı teşhis önlemleri için basit bir şekilde yeterli ayrıntıya girdiğine inanıyorum .


2
Lojistik regresyon için başka kitapların kepçe yükleri (en azından tamamı olmasa bile bölümlerde) vardır. Agresti'nin çeşitli kategorik veri analizi ders kitapları, Scott Menard, Hosmer ve Lemeshow ve Frank Harrell'in RMS kitabı, bu forumda çeşitli katılımcılar tarafından önerilen gördüklerim.
Andy W,

Cevabınız için teşekkür ederim. Sanırım sorumun basit bir cevabı yok. Tavsiyelerinize bir göz atacağım. Şerefe.
12'de

23

Soru yeterince motive değildi. Bu gibi model teşhisi yapmak için bir neden olmalı

  • Modeli daha iyi hale getirmek için değiştirme potansiyeli
  • Hangi yönlendirmeli testlerin kullanılacağını bilmemek (yani doğrusal olmama veya etkileşim testleri)
  • Modeli değiştirmenin istatistiksel çıkarımı kolayca bozabileceğini kavramamak (standart hatalar, güven aralıkları, değerleri)P

Cebirsel regresyon spesifikasyonuna dik olan şeyleri kontrol etmek dışında (örneğin, sıradan doğrusal modellerde artıkların dağılımını incelemek), model teşhisi bence çözdükleri kadar sorun yaratabilir. Bu, özellikle dağıtım varsayımı olmadığı için ikili lojistik model için geçerlidir.

Bu nedenle, modeli tanımlamak için zaman harcamak genellikle daha iyidir, özellikle de, daha önce hiçbir kanıtın doğrusallığı önermediği güçlü olduğu düşünülen değişkenler için doğrusallığı varsaymamak. Bazı durumlarda ise bir modeli önceden belirtebilirsiniz gerekir belirleyicileri sayısı azdır ya da tüm belirleyicileri doğrusal olmayan olmalı ve (doğru) hiçbir etkileşimleri varsaymak izin verirse, uymayan örn.

Model tanılamayı modelini değiştirmek için kullanılabileceğini düşünen herkes, indüklenen model belirsizliklerini doğru bir şekilde tahmin etmek için bu işlemi bir önyükleme döngüsü içinde çalıştırmalıdır.


4
Model teşhisinin modellemenin amacından kaynaklanması gerektiğine katılıyorum. Ancak, açılış paragrafınızdan verilere uygun modelleri kontrol etmememiz gerektiğini düşündüğünüz izlenimini edindim. Aklında olanın bu olmadığından eminim . Ayrıca, ikili lojistik modeli kesinlikle yoktur dağılımı ile ilgili varsayımların var! (en belirgin olanı yanıt için sadece iki değerin mevcut
Olasılık

3
Y için sadece 2 özel değer olduğunu varsayarsak, ikili lojistik modelinde bir fark yoktur. varsayımlar. Kişisel olarak lojistik regresyonlu teşhis grafiklerini çok sık kullanmıyorum, bunun yerine verilere herhangi bir şekilde uyması için yeterince esnek olan modelleri incelemeyi seçtiğimiz için seçmeyi tercih ediyorum. OLS'de kullandığım ana teşhis grafiği, artıkların normalliği için qq grafiğidir.
Frank Harrell

Genelleştirilmiş bir doğrusal model perspektifinden bakıldığında, lojistik model binom dağılımından (Bernoulli dağılımı) ortaya çıkar. Fakat o zaman bile artıkları yorumlamak zordur.
New_to_this

Rastgele değişkenin sadece iki değeri (örneğin Bernoulli dağılımı) alabildiği zaman dağılımlar hakkında konuşmak faydalı değildir, çünkü gözlemlerin bağımsız olmadığı sürece dağılım varsayımının yanlış gidebilmesinin imkânı yoktur.
Frank Harrell,

1
@ FrankHarrell Burada ne hakkında konuştuğunuzu bildiğinizin farkındayım, ancak yayınınızın / yorumlarınızın tüm toplum için doğrusal öngörünün yanlış tanımlanmasının (hatta bir katkı maddesinin tahmin edicinin yanlış olduğunu) açık olacağını sanmıyorum. GAM çerçevesi) lojistik regresyon için sorunlara neden olabilir. Pek çoğu, sizin dediğiniz gibi, verilerde bağımsızlık yaratmadığının farkında olmayabilir. Öğrenciler ilk önce lineer regresyon ile karşılaştığında, artıkları lineer öngörücünün yanlış tanımlanması ile hata dağılımının yanlış tanımlanması arasında ayrım yapmadan incelemeyi öğrenirler.
Jacob Socolar

5

Bu iş parçacığı oldukça eski, ancak yakın zamanda herhangi bir GL (M) M artıklarını standart bir alana dönüştürmek için DHARMa R paketini kullanabileceğinizi de eklemenin faydalı olacağını düşündüm . Bu yapıldıktan sonra, dağılımdan sapma, bir tahminciye artık bağımlılık, heteroskedastisite veya otokorelasyon gibi kalıntı problemlerini normal şekilde görsel olarak değerlendirebilir / test edebilirsiniz. Üzerinde çalışılan örnekler ve ayrıca burada ve burada CV ile ilgili diğer sorular için paket skeçine bakın .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.