Sıradan En Küçük Kareler neden Poisson regresyonundan daha iyi performans gösteriyor?


18

Bir şehrin her bölgesindeki cinayet sayısını açıklamak için bir gerileme oluşturmaya çalışıyorum. Verilerimin bir Poisson dağılımını izlediğini bilmeme rağmen, şöyle bir OLS yerleştirmeye çalıştım:

log(y+1)=α+βX+ϵ

Sonra, Poisson regresyonunu da denedim. Sahte: Sorun En Küçük Kareler regresyon daha iyi sonuçlar olması R2 yüksektir (0.57 vs 0.71) ve RMSE zamanda (8.88 vs 3.8 Standart özellikleri aynı birim için)..

Neden? Bu normal mi? Verilerin dağılımı ne olursa olsun OLS kullanımında yanlış olan ne?

düzenlemek kjetil b halvorsen ve diğerlerinin önerilerini takip ederek, iki model üzerinden veri uydurdum: OLS ve Negatif Binom GLM (NB). Sahip olduğum tüm özelliklerle başladım, sonra önemli olmayan özellikleri teker teker kaldırtım. OLS

crimearea=α+βX+ϵ

ağırlıklarla = .area

summary(w <- lm(sqrt(num/area) ~  RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))

error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area

rmse(error2)
[1] 80.64783

NB, mahallenin alanı ofset olarak suç sayısını tahmin ediyor.

summary(m3 <- glm.nb(num ~  LUM5_single  + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places  + employed  + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))

error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")

rmse(error)
[1] 121.8714

OLS kalıntıları:

resim açıklamasını buraya girin

NB kalıntıları

resim açıklamasını buraya girin

Yani RMSE OLS'de daha düşüktür, ancak artıklar o kadar Normal değil gibi görünüyor ...


Daha fazla ayrıntı gönderebilir misiniz? Verilerin doğası nedir? yani, yanıt değişkeni sayımı nedir? açıklayıcı değişkenler nedir?
kjetil b halvorsen

@kjetilbhalvorsen bağımlı değişken ilçe başına cinayet sayısıdır (112 ilçe). Bağımsız olanlar şehrin yapısal özellikleridir (sokak kavşakları, İÇN'ler vb.)
Marcodena

2
Bir Poisson regresyonu kullanarak bu modeli uydursaydım, ame boyutu olan ilçeleri hesaba katmak için bir ofset olarak log (districtsize) eklerdim. Olmadıkları sürece.
mdewey

1
R2pseudoR2RMSER2pseudoR2

1
R2z=log(y+1)R2y

Yanıtlar:


16

Sorunun bir kısmının performans metriği seçiminizde olabileceğinden şüpheleniyorum. Test performansını RMSE kullanarak ölçerseniz, MSE'yi en aza indirgemek için modeli eğitmek, test kriteriyle eşleşir ve neyin önemli olduğu hakkında bir ipucu verir. Test performansını, Poisson modelinin daha iyi çalıştığı (beklendiği gibi) bir Poisson olasılığı kullanarak test setinin negatif log olasılığını kullanarak ölçerseniz bulabilirsiniz. Bu, gündeme getirilen diğer sorunlara kıyasla küçük bir sorun olabilir, ancak yararlı bir akıl sağlığı kontrolü olabilir.


1
+1. OP'nin hedefi tahminse, bunun yerine bir OLS modeli kullanmak için bir gerekçe olabilir! Bununla birlikte, OLS'den kaynaklanan klasik hata temelli çıkarım GLM'lere uygulanamaz / uygulanmamalıdır. Kişi öğrenci kalıntılarını inceleyebilir veya daha iyi bir seçenek modelleri AIC ile karşılaştırmak olabilir.
AdamO

11

İlk olarak, bu tür verilerle aşırı dağılım beklerdim (bunun ne olduğunu bilmiyorsanız, bkz. Https://stats.stackexchange.com/search?q=what+is+overdispersion%3F ).

log(DistrictSize)Nr. homicidesDistrict Size

Diğer bir konu da doğrusal regresyonda kullandığınız dönüşümdür. Sayım verileriyle kullanılan alışılmış varyans dengeleyici dönüşüm, logaritma değil kare köküdür.

Yi/xiYiPoisson(λxi)

EYixiλVYixixi1
xiYi/xilog(Yi/xi+1)
    EDIT

Yazıdaki ek analizinize gelince, farklı yanıtlar kullanıldığından, rmse'nin iki model arasında doğrudan karşılaştırılamayacağını unutmayın! Doğrudan bir karşılaştırma yapmak için, öngörülen değerleri orijinal ölçeğe geri dönüştürmeniz gerekir. Sonra rmse'yi kendiniz hesaplayabilir ve görebilirsiniz. Ancak, geri dönüşümden sonra elde edilen tahminlerin doğrusal olmamaları nedeniyle taraflı olabileceğini unutmayın. Dolayısıyla, geri dönüştürülmüş tahminlerde yapılan bazı ayarlamalar onları daha kullanışlı hale getirebilir. Bazı durumlarda, bu teorik olarak hesaplanabilir, ancak bir bootstrap kullanabilirsiniz.


Modelleri önerdiğiniz gibi taktım, ancak ağırlıklı OLS'nin arkasındaki rezonu gerçekten anlamadım. Ne düşünüyorsun?
marcodena


2

Verilerinizin Normal olarak dağıtılmadığı doğrudur (ki bu da Poisson regresyonunu çalıştırmanızın nedenidir), ancak verileriniz muhtemelen bir Poisson dağılımı değildir. Poisson dağılımı, ortalamanın ve varyansın aynı olduğunu varsayar, ki bu muhtemelen böyle değildir (diğer cevaplarda belirtildiği gibi - bu tutarsızlığı yakalayabilir ve modele dahil edebilirsiniz). Verileriniz her iki modele de tam olarak uymadığından, OLS'un daha iyi performans gösterebileceği anlamlıdır.

Dikkat edilmesi gereken başka bir şey, en küçük kareler tahminlerinin normal olmayan bir yapıya karşı sağlam olduğudur, bu yüzden makul bir model alıyorsunuz olabilir. Gauss-Markov Teoremi bize OLS katsayıları tahminlerinin aşağıdaki varsayımlar altında en iyi (ortalama kare hatası açısından) doğrusal yansız tahmin ediciler (MAVİ) olduğunu söyler,

  • Hataların ortalaması sıfırdır
  • Gözlemler ilişkisiz
  • Hatalar sürekli değişime sahiptir

Burada Normallik varsayımı yoktur, bu nedenle verileriniz bu model için çok uygun olabilir! Bununla birlikte, orada pişmiş aşırı dağılım parametresine sahip bir Poisson modeline bakacağım ve daha iyi sonuçlar almalısınız.


@TynnaDoStat teşekkürler! Şimdi iki model taktım, biri dispersiyon parametresiyle. Ne düşünüyorsun?
marcodena

2
Varyans = Poisson dağılımı için ortalama genellikle Poisson için sorunlu bir varsayım olarak çağrılır regresyonu , ancak burada ima edildiği kadar zor değildir. İsmine rağmen, Poisson regresyonunun ana fikri bir günlük bağlantı fonksiyonudur. koşullu dağılım hakkındaki varsayımlar neredeyse o kadar önemli değildir. Varsayımların hepsi geçerli değilse, büyük olasılıkla, siz düzeltmedikçe standart hataların kapalı olması muhtemeldir, ancak uyum genellikle mantıklı olacaktır.
Nick Cox

2
Gerçekten de Poisson regresyonu, varyans ve ortalamanın aynı boyutlara sahip olmadığı negatif olmayan ölçülen cevaplar için anlamlı olabilir. Bkz. Örneğin blog.stata.com/2011/08/22/…
Nick Cox
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.