Bir şehrin her bölgesindeki cinayet sayısını açıklamak için bir gerileme oluşturmaya çalışıyorum. Verilerimin bir Poisson dağılımını izlediğini bilmeme rağmen, şöyle bir OLS yerleştirmeye çalıştım:
Sonra, Poisson regresyonunu da denedim. Sahte: Sorun En Küçük Kareler regresyon daha iyi sonuçlar olması yüksektir (0.57 vs 0.71) ve RMSE zamanda (8.88 vs 3.8 Standart özellikleri aynı birim için)..
Neden? Bu normal mi? Verilerin dağılımı ne olursa olsun OLS kullanımında yanlış olan ne?
düzenlemek kjetil b halvorsen ve diğerlerinin önerilerini takip ederek, iki model üzerinden veri uydurdum: OLS ve Negatif Binom GLM (NB). Sahip olduğum tüm özelliklerle başladım, sonra önemli olmayan özellikleri teker teker kaldırtım. OLS
ağırlıklarla = .
summary(w <- lm(sqrt(num/area) ~ RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))
error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area
rmse(error2)
[1] 80.64783
NB, mahallenin alanı ofset olarak suç sayısını tahmin ediyor.
summary(m3 <- glm.nb(num ~ LUM5_single + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places + employed + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))
error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")
rmse(error)
[1] 121.8714
OLS kalıntıları:
NB kalıntıları
Yani RMSE OLS'de daha düşüktür, ancak artıklar o kadar Normal değil gibi görünüyor ...