Sayı verileri ve aşırı dağılımlı bir gerilemede Poisson veya yarı poisson?


16

Sayım verilerim var (muhtemelen birçok faktöre bağlı olarak müşteri sayımı ile talep / teklif analizi). Normal hatalarla doğrusal bir regresyon denedim, ancak QQ grafiğim gerçekten iyi değil. Cevabın bir günlük dönüşümünü denedim: bir kez daha, kötü QQ-plot.

Şimdi Poisson Hataları ile bir gerileme deniyorum. Tüm önemli değişkenlere sahip bir modelle şunu elde ederim:

Null deviance: 12593.2  on 53  degrees of freedom
Residual deviance:  1161.3  on 37  degrees of freedom
AIC: 1573.7

Number of Fisher Scoring iterations: 5

Rezidüel sapma rezidüel serbestlik derecelerinden daha büyüktür: Aşırı dağılımım var.

Quasipoisson kullanmam gerekip gerekmediğini nasıl bilebilirim? Bu durumda quasipoisson'un amacı nedir? Crawley'nin "The R Book" da bu tavsiyesini okudum, ama benim durumumda ne bir nokta ne de büyük bir gelişme görmüyorum.

Yanıtlar:


18

Ne tür bir glm denklemini tahmin etmek istediğinizi belirlemeye çalışırken, sağ taraf (rhs) değişkenleri göz önüne alındığında hedef değişkeninizin beklenen değeri ile rhs değişkenleri göz önüne alındığında hedef değişkenin varyansı arasındaki makul ilişkiler hakkında düşünmelisiniz. Normal modelinizden elde edilen değerlerin ve kalan değerlerin grafikleri buna yardımcı olabilir. Poisson regresyonu ile varsayılan ilişki, varyansın beklenen değere eşit olduğu; oldukça kısıtlayıcı, bence kabul edeceksin. "Standart" doğrusal regresyon ile, varyansın beklenen değere bakılmaksızın sabit olduğu varsayımıdır. Bir yarı-poisson regresyonu için, varyansın, ortalamanın doğrusal bir fonksiyonu olduğu varsayılır; negatif binom regresyonu için ikinci dereceden bir fonksiyon.

Ancak, bu ilişkilerle sınırlı değilsiniz. Bir "ailenin" ("yarı" dışında) spesifikasyonu ortalama-varyans ilişkisini belirler. R Kitabım yok, ancak aile işlevlerini ve karşılık gelen ortalama varyans ilişkilerini gösteren bir tablo olduğunu hayal ediyorum. "Yarı" ailesi için çeşitli ortalama-varyans ilişkilerinden herhangi birini belirtebilir ve hatta kendi değişkeninizi bile yazabilirsiniz; bkz R belgeleri . Bir "yarı" modelde ortalama varyans işlevi için varsayılan olmayan bir değer belirterek çok daha iyi bir uyum bulabilirsiniz.

Hedef değişkenin aralığına da dikkat etmelisiniz; sizin durumunuzda negatif olmayan sayım verisidir. Düşük değerlerin (0, 1, 2) önemli bir kısmına sahipseniz, sürekli dağılımlar muhtemelen iyi uymayacaktır, ancak eğer yapmazsanız, ayrı bir dağıtım kullanmanın fazla bir değeri yoktur. Poisson ve Normal dağılımları rakip olarak kabul etmeniz nadirdir.


Evet haklısın. Burada veri sayıyorum ama büyük değerlere sahip. Sürekli bir dağıtım kullanmalıyım.
Antonin

8

Haklısınız, bu veriler muhtemelen aşırı dağıtılmış olabilir. Quasipoisson bir çözümdür: Bir ölçek parametresini de tahmin eder (varyans da ortalama olduğu için poisson modelleri için sabittir) ve daha iyi uyum sağlayacaktır. Bununla birlikte, o zaman ne yaptığınız maksimum olasılık değildir ve bazı model testleri ve endeksleri kullanılamaz. Venables ve Ripley, S ile Modern Uygulamalı İstatistiklerde iyi bir tartışma bulunabilir (Bölüm 7.5) .

Bir alternatif, negatif bir binom modeli kullanmaktır, örn. glm.nb() . Paketteki işlev MASS.


1
Ama ben bu durumda quasipoisson kullanmaya "zorlandım" mı? Quasipoisson olmayan modelimin daha fazla değişkenin anlamlı olması açısından daha iyi (sadece temel poisson) olduğu için soruyorum.
Antonin

2
Bu mantıklı değil mi? Eğer verilerden (2.3 diyelim) tahmin kullanmak yerine sigma'nın .00001 olduğunu varsaydığım bir regresyon modeli kullanırsam, o zaman elbette işler daha önemli olacaktır.
Dason

1
Antonin: Daha fazla değişken önemli olduğu için, işleri daha iyi hale getirmediğini söyleyebilirim. Bunlar, Dason'un işaret ettiği gibi, hata varyansını hafife alırsanız kolayca yanlış pozitifler olabilir. Bu durumda kesinlikle bir yarı-yöntem veya negatif binom kullanırım, ancak kağıdınızı gözden geçirmedikçe, hiçbir şey yapmaya zorlanmayacaksınız;)
Momo

Cevaplarınız için çok teşekkürler! Yarı-poisson ve negatif binom modelleri karşılaştırmanın herhangi bir yolunu biliyor musunuz? Çoğu kitapta, modelleri sunarlar, ancak aralarında nasıl seçim yapılacağını açıklamazlar.
Antonin

1
Çıktıdan, 53 + 1 = 54 veri noktasına 53-17 = 16 parametre sığdırdığınız görülüyor; bu doğru mu? Öyleyse, asemptotik yaklaşımlara dayanan, kullanımı da dahil olmak üzere glm()ve glm.nb()kötü kalibre edilmiş çıkarım vermekle yükümlü olan herhangi bir yöntem ; hassasiyetin abartılmasını beklemek mantıklı olacaktır. Bu gerilemeyi neden yapmak istediğiniz hakkında daha fazla bilgi edinmek faydalı olacaktır; bunun yerine küçük örnek durumlarda daha iyi performans gösteren olası yöntemler kullanılabilir.
konuk
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.