Lojistik bir model üzerinde çalışıyorum ve sonuçları değerlendirmede bazı zorluklar yaşıyorum. Modelim bir binom logit. Açıklayıcı değişkenlerim: 15 seviyeli kategorik bir değişken, iki değişkenli ve 2 sürekli değişken. N harfim büyük> 8000.
Firmaların yatırım yapma kararlarını modellemeye çalışıyorum. Bağımlı değişken yatırımdır (evet / hayır), 15 seviye değişkenleri yöneticiler tarafından bildirilen yatırımlar için farklı engellerdir. Değişkenlerin geri kalanı satış, kredi ve kullanılan kapasite kontrolleridir.
Aşağıda rms
R'deki paketi kullanarak sonuçlarım var .
Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 8035 LR chi2 399.83 R2 0.067 C 0.632
1 5306 d.f. 17 g 0.544 Dxy 0.264
2 2729 Pr(> chi2) <0.0001 gr 1.723 gamma 0.266
max |deriv| 6e-09 gp 0.119 tau-a 0.118
Brier 0.213
Coef S.E. Wald Z Pr(>|Z|)
Intercept -0.9501 0.1141 -8.33 <0.0001
x1=10 -0.4929 0.1000 -4.93 <0.0001
x1=11 -0.5735 0.1057 -5.43 <0.0001
x1=12 -0.0748 0.0806 -0.93 0.3536
x1=13 -0.3894 0.1318 -2.96 0.0031
x1=14 -0.2788 0.0953 -2.92 0.0035
x1=15 -0.7672 0.2302 -3.33 0.0009
x1=2 -0.5360 0.2668 -2.01 0.0446
x1=3 -0.3258 0.1548 -2.10 0.0353
x1=4 -0.4092 0.1319 -3.10 0.0019
x1=5 -0.5152 0.2304 -2.24 0.0254
x1=6 -0.2897 0.1538 -1.88 0.0596
x1=7 -0.6216 0.1768 -3.52 0.0004
x1=8 -0.5861 0.1202 -4.88 <0.0001
x1=9 -0.5522 0.1078 -5.13 <0.0001
d2 0.0000 0.0000 -0.64 0.5206
f1 -0.0088 0.0011 -8.19 <0.0001
k8 0.7348 0.0499 14.74 <0.0001
Temel olarak regresyonu iki şekilde değerlendirmek istiyorum: a) model verilere ne kadar iyi uyuyor ve b) modelin sonucu ne kadar iyi tahmin ettiğini. Uyum iyiliğini (a) değerlendirmek için, ki-kare temelli sapma testlerinin bu durumda uygun olmadığını düşünüyorum çünkü benzersiz eş değişkenlerin sayısı N'ye yaklaşıyor, bu nedenle X2 dağılımı olduğunu kabul edemeyiz. Bu yorum doğru mu?
epiR
Paketi kullanarak ortak değişkenleri görebiliyorum .
require(epiR)
logit.cp <- epi.cp(logit.df[-1]))
id n x1 d2 f1 k8
1 1 13 2030 56 1
2 1 14 445 51 0
3 1 12 1359 51 1
4 1 1 1163 39 0
5 1 7 547 62 0
6 1 5 3721 62 1
...
7446
Ayrıca, Hosmer-Lemeshow GoF testinin modası geçmiş olduğunu okudum, çünkü testi çalıştırmak için verileri 10'a böler, ki bu oldukça keyfi.
Bunun yerine pakette uygulanan le Cessie – van Houwelingen – Copas – Hosmer testini kullanıyorum rms
. Bu testin nasıl yapıldığından tam olarak emin değilim, henüz bu konuyla ilgili makaleleri okumadım. Her durumda, sonuçlar şunlardır:
Sum of squared errors Expected value|H0 SD Z P
1711.6449914 1712.2031888 0.5670868 -0.9843245 0.3249560
P büyük, bu yüzden modelimin uymadığını söylemek için yeterli kanıt yok. Harika! Ancak....
Modelin (b) tahmin kapasitesini kontrol ederken, bir ROC eğrisi çiziyorum ve AUC'nin olduğunu buluyorum 0.6320586
. Çok iyi görünmüyor.
Sorularımı özetlemek gerekirse:
Yaptığım testler modelimi kontrol etmek için uygun mu? Başka hangi testi düşünebilirim?
Modeli hiç yararlı buluyor musunuz, yoksa nispeten zayıf ROC analiz sonuçlarına dayanarak modeli reddeder misiniz?
x1
Tek bir kategorik değişken olarak alınmanız gerektiğinden emin misiniz ? Yani, her durumda yatırım için 1 ve sadece 1, “engel” olması gerekir mi? Bazı vakaların 2 veya daha fazla engelle karşı karşıya kalabileceğini düşünürdüm ve bazı vakaların hiçbiri yok.