Poisson GLM'nin tamsayı olmayan sayıları kabul etmesi nasıl mümkün olabilir?


17

Poisson GLM'nin tamsayı olmayan sayıları kabul etmesi beni gerçekten şaşırttı! Bak:

Veriler (içeriği data.txt):

1   2001    0.25  1
1   2002    0.5   1
1   2003    1     1
2   2001    0.25  1
2   2002    0.5   1
2   2003    1     1

R kodu:

t        <- read.table("data.txt")
names(t) <- c('site', 'year', 'count', 'weight')
tm       <- glm(count ~ 0 + as.factor(site) + as.factor(year), data = t, 
                family = "quasipoisson")  # also works with family="poisson"
years    <- 2001:2003
plot(years, exp(c(0, tail(coef(tm), length(years)-1))), type = "l")

Sonuçta yıl indeksi, yani "beklenen" olduğu gibi 1-2-4yılda 2001-2003.

Ancak Poisson GLM'nin tamsayı olmayan sayılar alması nasıl mümkün olabilir? Poisson dağılımı her zaman sadece tamsayı olmuştur!


2
Tam olarak ne bilmek istediğinizi açıklayabilir misiniz? Uydurma algoritması tamsayı olmayanlarla nasıl ilgilenir? Veya R neden yanıtın bir tam sayı olup olmadığını kontrol etmiyor? Veya tamsayı olmayanlar sağlandığında sonuçta bir sorun mu var?
Momo

@Momo, evet, tüm bu sorular ilginç!
Meraklı

2
Lütfen sorunuzu bu durumu yansıtacak şekilde düzenleyin. Bu şekilde iyi bir cevap almanız daha olasıdır.
Momo

8
Bunun gerçekten önemli olduğu için family="poisson"değil, aynı zamanda, örneğin, quasipoissonaileyi kullandığınız için örneğinizin bir Poisson GLM olmadığını unutmayın , bu da sadece ortalama ile varyans arasındaki ilişkiye bağlıdır, bu yüzden tamsayı olmayan sayıların alınması konusunda sürpriz olmamalıdır.
Aaron Stack Overflow'dan ayrıldı

1
Bunun neden anlamlı olabileceğine dair bazı referanslar .
Dimitriy V. Masterov

Yanıtlar:


17

Tabii ki Poisson dağılımının teknik olarak sadece tamsayılar için tanımlandığından emin olabilirsiniz. Bununla birlikte, istatistiksel modelleme iyi yaklaşım sanatıdır (" tüm modeller yanlış ") ve tamsayı olmayan verileri [yaklaşık] Poisson gibi ele almanın mantıklı olduğu zamanlar vardır.

Örneğin, aynı sayım verilerini kaydetmek için iki gözlemci gönderirseniz, iki gözlemcinin her zaman sayım üzerinde anlaşamadıkları görülebilir - biri 3 kez olduğunu, diğerinin 4 kez olduğunu söyledi. O zaman Poisson katsayılarınızı takarken 3 ile 4 arasında seçim yapmak yerine 3.5 kullanma seçeneğine sahip olmak güzel.

Hesaplamalı olarak, Poisson'daki faktöriyel tamsayı olmayanlarla çalışmayı zorlaştırabilir, ancak faktöriyelin sürekli bir genellemesi vardır. Ayrıca, ifadeyi basitleştirdikten sonra , Poisson için maksimum olasılık tahmini yapmak faktöriyel fonksiyonu bile içermez .


15

Bir yanıt için Eğer varsayarsak, onun beklenti logaritması Tahmini için bir doğrusal kombinasyonudur ve sapması beklentisine eşittir regresyon katsayıları için tutarlı tahminler , Poisson modeli için skor denklemleri çözülerek elde edilebilir: Elbette tutarlılık, herhangi bir testin veya güven aralığının geçerliliği anlamına gelmez; olasılık belirtilmedi.yE Y i = exp β T x ix

EYben=tecrübeβTxben
varYben=EYben
β
Σbennxben(yben-tecrübeβTxben)=0

Bu, okulda öğrendiğimiz anlar yöntemi yaklaşımından kaynaklanır ve genelleştirilmiş tahmin denklemlerine yaklaşır .

@ Aaron, aslında kodunuza bir yarı Poisson uyumu kullandığınıza dikkat çekti. Bu, varyansın ortalama ile orantılı olduğu anlamına gelir

varYben=φEYben

verilerden tahmin edilebilecek bir dağılım parametresi . Katsayı tahminleri aynı olacaktır, ancak standart hataları daha geniş olacaktır; bu daha esnek ve dolayısıyla daha genel olarak kullanışlı bir yaklaşımdır. (Parametrelerin varyans-kovaryans matrisi için sandviç tahmin edicilerinin, bu tür durumlarda genellikle sağlam standart hatalar vermek için kullanıldığını unutmayın.)φ

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.