Lojistik regresyon modelinin değerlendirilmesi


13

Lojistik bir model üzerinde çalışıyorum ve sonuçları değerlendirmede bazı zorluklar yaşıyorum. Modelim bir binom logit. Açıklayıcı değişkenlerim: 15 seviyeli kategorik bir değişken, iki değişkenli ve 2 sürekli değişken. N harfim büyük> 8000.

Firmaların yatırım yapma kararlarını modellemeye çalışıyorum. Bağımlı değişken yatırımdır (evet / hayır), 15 seviye değişkenleri yöneticiler tarafından bildirilen yatırımlar için farklı engellerdir. Değişkenlerin geri kalanı satış, kredi ve kullanılan kapasite kontrolleridir.

Aşağıda rmsR'deki paketi kullanarak sonuçlarım var .

  Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
Obs          8035    LR chi2     399.83    R2       0.067    C       0.632    
 1           5306    d.f.            17    g        0.544    Dxy     0.264    
 2           2729    Pr(> chi2) <0.0001    gr       1.723    gamma   0.266    
max |deriv| 6e-09                          gp       0.119    tau-a   0.118    
                                           Brier    0.213                     

          Coef    S.E.   Wald Z Pr(>|Z|)
Intercept -0.9501 0.1141 -8.33  <0.0001 
x1=10     -0.4929 0.1000 -4.93  <0.0001 
x1=11     -0.5735 0.1057 -5.43  <0.0001 
x1=12     -0.0748 0.0806 -0.93  0.3536  
x1=13     -0.3894 0.1318 -2.96  0.0031  
x1=14     -0.2788 0.0953 -2.92  0.0035  
x1=15     -0.7672 0.2302 -3.33  0.0009  
x1=2      -0.5360 0.2668 -2.01  0.0446  
x1=3      -0.3258 0.1548 -2.10  0.0353  
x1=4      -0.4092 0.1319 -3.10  0.0019  
x1=5      -0.5152 0.2304 -2.24  0.0254  
x1=6      -0.2897 0.1538 -1.88  0.0596  
x1=7      -0.6216 0.1768 -3.52  0.0004  
x1=8      -0.5861 0.1202 -4.88  <0.0001 
x1=9      -0.5522 0.1078 -5.13  <0.0001 
d2         0.0000 0.0000 -0.64  0.5206  
f1        -0.0088 0.0011 -8.19  <0.0001 
k8         0.7348 0.0499 14.74  <0.0001 

Temel olarak regresyonu iki şekilde değerlendirmek istiyorum: a) model verilere ne kadar iyi uyuyor ve b) modelin sonucu ne kadar iyi tahmin ettiğini. Uyum iyiliğini (a) değerlendirmek için, ki-kare temelli sapma testlerinin bu durumda uygun olmadığını düşünüyorum çünkü benzersiz eş değişkenlerin sayısı N'ye yaklaşıyor, bu nedenle X2 dağılımı olduğunu kabul edemeyiz. Bu yorum doğru mu?

epiRPaketi kullanarak ortak değişkenleri görebiliyorum .

require(epiR)
logit.cp <- epi.cp(logit.df[-1]))

    id n x1   d2 f1 k8
     1 1 13 2030 56  1
     2 1 14  445 51  0
     3 1 12 1359 51  1
     4 1  1 1163 39  0
     5 1  7  547 62  0
     6 1  5 3721 62  1
    ...
    7446

Ayrıca, Hosmer-Lemeshow GoF testinin modası geçmiş olduğunu okudum, çünkü testi çalıştırmak için verileri 10'a böler, ki bu oldukça keyfi.

Bunun yerine pakette uygulanan le Cessie – van Houwelingen – Copas – Hosmer testini kullanıyorum rms. Bu testin nasıl yapıldığından tam olarak emin değilim, henüz bu konuyla ilgili makaleleri okumadım. Her durumda, sonuçlar şunlardır:

Sum of squared errors    Expected value|H0           SD             Z            P
         1711.6449914         1712.2031888    0.5670868    -0.9843245    0.3249560

P büyük, bu yüzden modelimin uymadığını söylemek için yeterli kanıt yok. Harika! Ancak....

Modelin (b) tahmin kapasitesini kontrol ederken, bir ROC eğrisi çiziyorum ve AUC'nin olduğunu buluyorum 0.6320586. Çok iyi görünmüyor.

resim açıklamasını buraya girin

Sorularımı özetlemek gerekirse:

  1. Yaptığım testler modelimi kontrol etmek için uygun mu? Başka hangi testi düşünebilirim?

  2. Modeli hiç yararlı buluyor musunuz, yoksa nispeten zayıf ROC analiz sonuçlarına dayanarak modeli reddeder misiniz?


x1Tek bir kategorik değişken olarak alınmanız gerektiğinden emin misiniz ? Yani, her durumda yatırım için 1 ve sadece 1, “engel” olması gerekir mi? Bazı vakaların 2 veya daha fazla engelle karşı karşıya kalabileceğini düşünürdüm ve bazı vakaların hiçbiri yok.
gung - Monica'yı eski durumuna getirin

Yanıtlar:


6

Bir lojistik regresyon modelini incelemek için uygulanabilecek binlerce test vardır ve bunların çoğu, kişinin hedefinin tahmin, sınıflandırma, değişken seçim, çıkarım, nedensel modelleme vb. Olup olmadığına bağlıdır. model kalibrasyonu ve risk değerlerine göre ayrıldığında öngörülen değerlerin öngörülen frekansla eşleşip eşleşmediği. Her ne kadar 10 seçimi keyfi olsa da, test asemptotik sonuçlara sahiptir ve kolayca değiştirilebilir. HL testi ve AUC, lojistik regresyon modelini tahmin etmek için kullanılan verilerle hesaplandığında (bence) çok ilginç sonuçlara sahiptir. SAS ve SPSS gibi programların, fiili olarak çılgınca farklı analizler için istatistiklerin sık sık raporlanmasını sağladığını merak ediyorumregresyon sonuçlarını sunmanın yolu. Tahmini doğruluk testleri (örn. HL ve AUC) bağımsız veri kümeleriyle veya bir modelin öngörme yeteneğini değerlendirmek için zaman içinde farklı dönemlerde toplanan (hatta daha iyi) verilerle daha iyi kullanılır.

Dikkat edilmesi gereken bir diğer nokta ise tahmin ve çıkarımın çok farklı şeyler olduğudur. Tahmini değerlendirmenin nesnel bir yolu yoktur, 0.65 EAA değeri, 1 yıllık meme kanseri riski gibi çok nadir ve karmaşık olayları tahmin etmek için çok iyidir. Benzer şekilde, çıkarım keyfi olmakla da suçlanabilir, çünkü geleneksel yanlış pozitif 0.05 oranı yaygın olarak atılır.

Ben olsaydım, sorun açıklamanız yöneticinin yatırımda "engeller" in etkilerini modellemekle ilgileniyor gibiydi, bu yüzden modele göre ayarlanmış dernekleri sunmaya odaklanın. Model olasılık oranları için puan tahminlerini ve% 95 güven aralıklarını sunun ve anlamlarını, yorumlarını ve geçerliliklerini diğerleriyle tartışmaya hazır olun. Orman arazisi etkili bir grafik araçtır. Verilerde bu engellerin sıklığını da göstermeli ve karıştırılmamış olasılığın ayarlanmamış sonuçlarda küçük veya büyük olup olmadığını göstermek için arabuluculuklarını diğer ayarlama değişkenleri ile sunmalısınız. Daha da ileri gideceğim ve Cronbach'ın alfa yöneticisi gibi tutarlılık için faktörleri araştıracaktım.

Sanırım eldeki soruya değil, sayılara biraz fazla odaklanmışsınız. İyi bir istatistik sunumunun% 90'ı model sonuçları sunulmadan önce yapılır.


Yanıtınız için teşekkür ederim Adam! Analizlerimin çoğunu olasılık oranları yorumuna ve tahmin edilen olasılıklara dayandırıyorum. Ama henüz lojistik regresyon ile çok rahat olmadığım için, analizimin reddedileceğinden korkuyorum çünkü bazı genel model uyum testini kaçırıyorum. Ama dediğin gibi, ben de modelin daha kapsamlı yorumuna odaklanmam gerektiğine inanıyorum. Ben de orman arazileri ve Cronbach's Alpha için yapılan önerilerinizi dikkate alacağım. Tekrar teşekkürler!
Federico C

Model varsayımlarının tek meşru potansiyel ihlali, sorun açıklamanız göz önüne alındığında ilişkili veriler olacaktır. Bunu göz önünde bulundurarak, kuasibinomiyal regresyon modeli ile bir dağılım testi yapabilir veya endüstri türlerine göre (bahsettiğiniz çeşitli firmalar için) alt grup analizleri yapmaya çalışabilir veya tekrar küme analizlerini deneyebilirsiniz.
AdamO
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.