Negatif bir binom regresyonundaki Pearson kalıntıları neden bir poisson regresyonundan daha küçüktür?


9

Bu veriler var:

set.seed(1)
predictor  <- rnorm(20)
set.seed(1)
counts <- c(sample(1:1000, 20))
df <- data.frame(counts, predictor)

Poisson regresyonu yaptım

poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson")

Ve olumsuz bir binom regresyonu:

require(MASS)
nb_counts <- glm.nb(counts ~ predictor, data = df)

Sonra poisson regresyonu için dağılım istatistiklerini hesapladım:

sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts)

# [1] 145.4905

Ve negatif binom regresyonu:

sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts)

# [1] 0.7650289

DENKLEMLERİ KULLANMADAN, negatif binomiyal regresyon için dağılım istatistiğin neden poisson regresyonu için dağılım istatistiğinden önemli ölçüde daha küçük olduğunu açıklayan var mı?

Yanıtlar:


9

Bu oldukça basittir, ancak "denklem kullanmadan" önemli bir handikaptır. Bunu kelimelerle açıklayabilirim, ama bu kelimeler mutlaka denklemleri yansıtacaktır. Umarım bu sizin için kabul edilebilir / hala değerlidir. (İlgili denklemler zor değildir.)

Birkaç çeşit kalıntı vardır. Ham artıklar , gözlemlenen yanıt değerleri (sizin durumunuzda counts) ve modelin öngörülen yanıt değerleri arasındaki farktır . Pearson kalıntıları bunları standart sapmaya (kullandığınız genelleştirilmiş doğrusal modelin belirli sürümü için varyans fonksiyonunun kare kökü) böler.

Poisson dağılımı ile ilişkili standart sapma negatif binomialdan daha küçüktür . Böylece, daha büyük bir paydaya bölündüğünüzde, bölüm daha küçük olur.

Ek olarak, negatif binomial davanız için daha uygundur, çünkü countspopülasyonunuzda üniforma olarak dağıtılacaksınız. Yani, varyansları ortalamalarına eşit olmayacaktır.


4
OP matematiksel olmayan bir açıklama istemesine rağmen, yine de bu cevap için matematiksel (veya aynı derecede titiz ve açık) bir gerekçe görmek güzel olurdu. Soruyu okuduğumda sezgim şuydu: "Poisson, NB'nin (sınırlayıcı) özel bir durumu olduğundan ve NB'nin daha fazla parametreye sahip olması nedeniyle, montajda daha fazla esneklik var, bu yüzden elbette değiştirirken herhangi bir makul kalıntı ölçüsü artmamalı bir NB GLM tarafından Poisson GLM. " Böyle bir sezginin gerçekten doğru olup olmadığını merak ediyorum.
whuber

Eğer XPoisson(λ), E[X]=V[X]=λ. EğerXNegBin(r,p), E[X]=pr/(1p) ve V[X]=pr/(1p)2. Yani bir Poisson varyansı ortalamaya eşittir, NegBin varyansı ortalamadan daha büyüktür (p<1(1p)2<(1p)). Bu yüzden "Poisson dağılımı ile ilişkili standart sapma negatif binomialdan daha küçüktür."
Sergio

3
@Sergio Meselenin özü, Poisson modelinde tahmin ile çalışıyor olduğumuz λ^ ziyade λ kendisi ve NB modelinde benzer şekilde iki tahminle çalışıyoruz r^ ve p^. Bu nedenle karşılaştırmanız doğrudan geçerli değildir. Her iki modelde de MLE'lerin formüllerini yazmadan, bu tahmin kümeleri arasındaki ilişkilerin ne olması gerektiği açık değildir. Dahası, Pearson kalıntısı bir orandır ve varyanslarla ilgili argüman, hikayenin sadece yarısı olan paydaları ele almaktadır.
whuber

MLE tahminleri tutarlıdır. Sorun şu ki, gung'un dediği gibi, "sayımlar popülasyonda üniforma olarak dağıtılacaktır. Yani, varyansları ortalamalarına eşit olmayacaktır", asla tahmini bir Poisson varyansı tahmin edilenden daha büyük olamaz. Poisson demek, tahminleriniz tarafsız ve tutarlı olsa bile. Bu bir yanlış anlama sorunu.
Sergio

5

Poisson modeli için, eğer iinci gözlem Yi dır-dir μi varyansı μive Pearson kalıntısı

yiμ^iμ^i

nerede μ^ortalamanın tahminidir. Kullanılan negatif binom modeli parametrizasyonları MASS açıklanmıştır burada . İçin beklentiith observation Yi dır-dir μi varyansı μi+μ2θve Pearson kalıntısı

yiμ~iμ~i+μ~2θ

nerede μ~ortalamanın tahminidir. Değeri ne kadar küçükseθ- yani daha fazla Poisson varyansı - artık, Poisson eşdeğerine kıyasla daha küçüktür. [Ancak @whuber'ın işaret ettiği gibi, araçların tahminleri aynı değil,μ^μ~, çünkü tahmin prosedürü gözlemleri varsayılan varyanslarına göre ağırlıklandırır. İçin tekrarlı ölçümler yapacaksanıziBu tahminci yaklaştıkça yaklaşıyorlardı ve genel olarak bir parametre eklemek tüm gözlemlere daha iyi uymalıdır, ancak bunu nasıl titizlikle göstereceğimizi bilmiyorum. Yine de, Poisson modeli geçerliyse tahmin ettiğiniz nüfus miktarları daha büyüktür, bu yüzden sürpriz olmamalıdır.]


1
Bazı denklemleri tanıttığınız için teşekkürler. Amaμiiki modelde aynı değerlere sahip olacak? (Ben öyle düşünmüyorum.) Değilse, iki Pearson kalıntısını karşılaştırmak nasıl mümkün olabilir?
whuber

@whuber Bu durumda, her iki model için de takılan değerlerin neredeyse aynı olduğu ortaya çıkıyor. Sonuçta, "gerçek" modelin gerçekten bir kesişim noktası vardır ve simülasyonda x ve Y arasında bir ilişki olmadığı için ortalamayı modellenir.
jsk

1
@jsk Evet, verilere baktım ve kodu çalıştırdım. (BTW, iki model için verileri değiştirmek ve aslında aynı dağılım istatistiklerini elde etmek mümkündür .) Ne yazık ki, geçerli olan noktanız hala belirli bir soruyu çözmüyor ya da (örtük) genel soruyu ele almıyor tahmini varyanslar da hemen hemen aynı olabilir, çünkü Poisson kalıntılarını NB kalıntılarıyla karşılaştırır. Mevcut cevapla ilgili kafa karıştırıcı bir yön, "μben" Aynı verilerin iki modelinde neyin (ilke olarak) farklı tahminler olabileceğini belirtmek için
whuber

1
@whuber Gerçekten de, μben. İlginç bir şekilde, Poisson için NB'den daha düşük bir dağılım istatistiğine yol açacak verileri simüle etmenin bir yolunu bulamıyorum. Belki mümkün değildir? Bunun sezgisel olarak anlamlı olduğunu kabul ediyorum. Kimlikten başka bir bağlantı işlevine sahip bir glm'niz olduğunda, mle için kapalı form çözümü olmadığından kanıtlanması kolay değildir. Ancak evet, iki dağılım istatistiğini çok benzer hale getirmek kolaydır.
jsk

1
@jsk - bir NB modelinin her zaman Poisson'dan daha iyi olacağından şüphelenen teorik bir argüman, NB'yi bir poisson-gama bileşik dağılımı olarak yazabilmenizdir. Yani sende var(yben|λ,vben,r)~PÖbenssÖn(λvben) ve sonra (vben|λ,r)~G,birmmbir(r,r) negatif bir binom modeli verir (yben|λ,r)~N-B(r,λr+λ). Şimdi bunların eklenmesivben parametreleri, modelin tahmini ortalamayı gözlemlenen değere yakınlaştırmasını sağlar ( yben>λ görürdün vben>1, kalıntıyı azaltır.)
olasılık
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.