Aşırı dağılma ile Poisson dağılımının modellenmesi


15

Bir Poisson dağılımını takip etmeyi bekleyebileceğim bir veri setim var, ancak yaklaşık 3 kat fazla dağılmış durumda. Şu anda, bu overdispersion R aşağıdaki kod gibi bir şey kullanarak modelleme.

## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)

Görme, bu ampirik verilerime çok iyi uyuyor gibi görünüyor. Eğer uyumdan memnunsam , burada açıklandığı gibi negatif bir binom dağılımı kullanmak gibi daha karmaşık bir şey yapmamın bir nedeni var mı? (Öyleyse, bunu yapan herhangi bir işaretçi veya bağlantı çok takdir edilecektir).

Oh, ve bunun biraz pürüzlü bir dağılım yarattığının farkındayım (üçe çarpma nedeniyle), ancak bu benim uygulama için önemli olmamalı.


Güncelleme: Bu soruyu araştıran ve bulan başka herkes uğruna, negatif bir binom dağılımı kullanarak aşırı dağılmış bir poisson modellemek için basit bir R işlevi. D'yi istenen ortalama / varyans oranına ayarlayın:

rpois.od<-function (n, lambda,d=1) {
  if (d==1)
    rpois(n, lambda)
  else
     rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}

(R posta listesinden: https://stat.ethz.ch/pipermail/r-help/2002-Haziran/022425.html )

Yanıtlar:


11

aşırı dağılmış poisson için, varyansı ortalamanın bir fonksiyonu olarak tam olarak parametreleştirmenizi sağlayan negatif binom kullanın. rnbinom (), vb.


1
Neden negatif binomial ve gözlem düzeyinde rastgele etkisi olan karışık bir model değil? Bu retorik bir soru değil. Bu "Hangisini tercih etmem gerektiğini anlamıyorum." soru. Ayrıca, tekrarlanan önlemler durumum varsa ne olur? Verilerim sürekli olduğunda, genelleştirilmiş doğrusal karışık bir model kullanacağım. Gama dağılımı genellikle sürekli biyolojik verilerle iyi çalışır ve karışık model tekrarlanan ölçüm elemanını işler. Peki, aşırı dağılmış tekrarlı hesaplama sayısı verileri varsa kişi ne yapar?
Bryan

Yeniden parametrelendirilmiş negatif binom modelinin aşırı dağınık poisson verileri ile popüler olmasının bir nedeni, "ekstra" varyansı modellemek için bir aşırı dağılım parametresi ile ortalamanın (poisson ile aynı) bir fonksiyonu olarak varyansı modeller. Hızlı formül için sayfa 487'ye bakın: worldscientific.com/doi/pdf/10.1142/9789813235533_0044 ve yeniden parametrelendirme hakkında bir açıklama için wikipedia sayfası: en.wikipedia.org/wiki/Negative_binomial_distribution
Samir Rachid Zaim

4

Poisson için ortalama değeriniz 1500 ise, normal dağılıma çok yakınsınız; bunu bir yaklaşım olarak kullanmayı ve ardından ortalama ve varyansı ayrı ayrı modellemeyi deneyebilirsiniz.


Bu sadece bir örnek - 200 sırasına göre çok daha küçük bir medyan olabilir (verileri nasıl bölümlediğime bağlıdır). Bu normal bir dağılımın kullanılmasını engeller, değil mi?
chrisamiller

1
Poisson dağılımına normal yaklaşım oldukça sağlamdır, CDF'ler arasındaki fark doğru hatırlarsam 0.75 / sqrt (lambda) gibi bir şeyle sınırlıdır. Lambda = 200 kullanma konusunda çok endişelenmezdim, ancak daha fazla riskten kaçınıyorsanız, kesinlikle negatif binom ile gidin.
Zengin
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.