Poisson vs Quasi-Poisson modelinde tahmin edilen özdeş katsayılar


12

Bir sigorta ortamında hasar sayısı modelini modellerken, Poisson ile başladım, ancak aşırı dağılım olduğunu fark ettim. Bir Quasi-Poisson, temel Poisson'dan daha büyük ortalama varyans ilişkisini daha iyi modelledi, ancak katsayıların hem Poisson hem de Quasi-Poisson modellerinde aynı olduğunu fark ettim.

Bu bir hata değilse, neden oluyor? Quasi-Poisson'u Poisson'a göre kullanmanın faydası nedir?

Dikkat edilmesi gerekenler:

  • Altta yatan kayıplar aşırı derecede, ki bu da (sanırım) Tweedie'nin çalışmasını engelledi - ama denediğim ilk dağıtımdı. Ayrıca NB, ZIP, ZINB ve Hurdle modellerini de inceledim, ancak yine de Quasi-Poisson'un en iyi uyumu sağladığını gördüm.
  • AER paketindeki dispersiyon testi ile aşırı dağılım için test yaptım. Dispersiyon parametresim yaklaşık 8.4 idi, p-değeri 10 ^ -16 büyüklüğündeydi.
  • Ben aile = poisson veya quasipoisson ve kod için bir günlük bağlantısı ile glm () kullanıyorum.
  • Poisson kodunu çalıştırırken, "In dpois (y, mu, log = TRUE): tamsayı olmayan x = ..." uyarıları ile geliyorum.

Ben'in rehberine göre faydalı SE Konuları:

  1. Poisson regresyonunda Temel Ofset Matematiği
  2. Ofsetlerin Katsayılara Etkisi
  3. Pozlamayı Covariate olarak Ofset ile kullanma arasındaki fark

Bir Tweedie dağılımı daha iyi bir fikir olmaz mı?
duffymo

Tweedie'yi hareket halindeyken denedim, ancak kayıp verilerimiz temel değil, aşırı bir temelde. Sayım dağılımını ele almak için Negatif Binom, ZIP ve engel modellerini de denedi.
Frank H.

1
verilerinizdeki tamsayı olmayan değerlerin nereden geldiği hakkında biraz daha açıklayabilir misiniz?
Ben Bolker

6
Eğer olmamalı oranları hesaplayarak modeli frekansları / oranları counts/exposure. Aksine, offset(log(exposure))modellerinize bir offset ( ) terimi eklemelisiniz .
Ben Bolker

1
Her ne kadar Poisson (yarı-Poisson değil) modellemesi yaparken en önemlisi pratiktir. İyi bir referansı açıkça bilmiyorum; CrossValidated'da ilgili bir cevap bulamazsanız, iyi bir takip sorusu olacaktır.
Ben Bolker

Yanıtlar:


25

χ2p

p

  • Yukarıda yorum yaptığınız gibi, aşırı dağılım için birçok farklı yaklaşım vardır (Tweedie, farklı negatif binom parametrelendirmeleri, yarı olabilirlik, sıfır enflasyon / değişiklik).
  • Aşırı dağılım faktörü> 5 (8.4) olduğunda, bunun bir çeşit model uyumsuzluğu (aykırı değerler, sıfır enflasyon [zaten denediğinizi görüyorum), doğrusal olmama) tarafından yönlendirilip yönlendirilmemesi konusunda biraz endişelenirim genel anlamda heterojenliği temsil etmektense. Buna genel yaklaşımım, ham veri ve regresyon teşhisinin grafiksel keşfi ...

Çok yararlı. Şimdi görüyorum ki Poisson'daki değişkenler ve değişkenlerin seviyeleri, bahsettiğiniz ölçekleme nedeniyle Quasi-Poisson için olandan çok daha istatistiksel olarak anlamlı. Aykırı değerleri test ettim ama bunun bir sorun olduğunu bulamadım. Aşırı dağılım ile maskelenen başka sorunlar veya bu sorunları bulmak için bu tür yaklaşımların örnekleri neler olabilir?
Frank H.

Çoğunlukla link (log) ölçeğindeki cevapların doğrusal olmaması; kalıplar olup olmadığını görmek için artıklar-yerleştirilmiş parseller ve artıklar-tahmin-değişkenleri parselleri kontrol edin.
Ben Bolker

1
+1 Güzel düzenlendi! İlk paragrafınızın netliğini gerçekten takdir ediyorum.
Alexis
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.