Verilen örneklerin Poisson dağılımından alındığını nasıl test edebilirim?


Yanıtlar:


18

Öncelikle tavsiyem, verilerde olduğu gibi Poisson dağılımını denemekten kaçınmanız gerektiğidir. Poisson dağılımının neden belirli bir veri kümesine veya bir fenomene uyması gerektiğine dair bir teori yapmalısınız.

Bunu belirledikten sonra, bir sonraki soru dağıtımın homojen olup olmadığıdır. Bu, verilerin tüm bölümlerinin aynı poisson dağılımıyla mı ele alındığı veya bunun zaman veya mekan gibi bir yönü temel alarak bir varyasyon olduğu anlamına gelir. Bu yönlerden emin olduktan sonra, aşağıdaki üç testi deneyin:

  1. Ki-kare değişkeni kullanılarak olabilirlik oran testi
  2. koşullu ki-kare istatistiğinin kullanılması; ayrıca poisson dağılım testi veya varyans testi olarak da bilinir.
  3. neyman-scott istatistiğinin kullanımı, poisson değişkeninin değişkenliğini sabitleyen dönüşümüne dayanıyor

Bunları araştırdığınızda net olarak kolayca bulabilirsiniz.


3
“Dağılımın homojen olup olmadığı… Bu hususları ikna ettikten sonra” Bunu nasıl belirleyeceğiniz konusunda biraz yorum yapabilir misiniz?
anlamı

13

İşte yardımcı olabilecek bir R komutları dizisi. Herhangi bir hata görürseniz yorum yapmaktan veya düzenlemekten çekinmeyin.

set.seed(1)
x.poi<-rpois(n=200,lambda=2.5) # a vector of random variables from the Poisson distr.

hist(x.poi,main="Poisson distribution")

lambda.est <- mean(x.poi) ## estimate of parameter lambda
(tab.os<-table(x.poi)) ## table with empirical frequencies


freq.os<-vector()
for(i in 1: length(tab.os)) freq.os[i]<-tab.os[[i]]  ## vector of emprical frequencies

freq.ex<-(dpois(0:max(x.poi),lambda=lambda.est)*200) ## vector of fitted (expected) frequencies

acc <- mean(abs(freq.os-trunc(freq.ex))) ## absolute goodness of fit index acc
acc/mean(freq.os)*100 ## relative (percent) goodness of fit index

h <- hist(x.poi ,breaks=length(tab.os))
xhist <- c(min(h$breaks),h$breaks)
yhist <- c(0,h$density,0)
xfit <- min(x.poi):max(x.poi)
yfit <- dpois(xfit,lambda=lambda.est)
plot(xhist,yhist,type="s",ylim=c(0,max(yhist,yfit)), main="Poison density and histogram")
lines(xfit,yfit, col="red")

#Perform the chi-square goodness of fit test 
#In case of count data we can use goodfit() included in vcd package
library(vcd) ## loading vcd package
gf <- goodfit(x.poi,type= "poisson",method= "MinChisq")
summary(gf)
plot(gf,main="Count data vs Poisson distribution")

3
Bu satır: freq.ex <- (dpois (0: max (x.poi), lambda = lambda.est) * 200) bazı gerçek dünya verilerinde hatalar üretir, çünkü freq.ex uzunluğu freq ile eşleşmez. bu satırdaki obs acc <- mean (abs (freq.os-trunc (freq.ex))). Bu çizgiyi freq.ex <- (dpois (seq (0, max (x.poi))) [seq (0: max (x.poi))% x.poi% 'si, lambda = lambda.est)' e adapte ettim. * 200) ama bir şey hala doğru değil çünkü iyi uykular uyarıyor.
russellpierce

Kodunuzu kullanarak 121 uygunluk endeksi aldım. Ama göreceli değil mi? Öyleyse 0 ile 100 arasında olmalı, değil mi?
MERose


5

Poisson 1 bir dağılımını vermelidir beri bir test istatistik olarak dağılımını (ortalamaya varyans oranı) kullanabilirsiniz İşte bir bağlantıdır bir modeli test olarak nasıl kullanılacağını için.


+1 teşekkür ederim. Sık sık bazı "weired" sonuçları alıyorum, örneğin, normal bir dağılım lambda'nın nispeten küçük olduğu bir poisson olandan daha yüksek bir p-değeri alır (yani sadece normal ve poisson hiç benzemez)
David B

6
404 BULUNAMADI!!
Rodrigo

5

Poisson dağılımı için ortalama, varyansa eşittir. Örnek ortalamanız örnek varyansınızdan çok farklıysa, muhtemelen Poisson verileriniz yoktur. Burada da belirtilen dağılım testi, bu kavramın resmileştirilmesidir.

Varyansınız ortalamanızdan çok daha büyükse, genellikle olduğu gibi, bir sonraki negatif binom dağılımını denemek isteyebilirsiniz.


5
Ve eğer ortalama, varyans ile aynıysa, verinin Poisson olduğu sonucuna varabilir misiniz? Zorlukla!
PeterR

Doğru. Gerekli ama yeterli değil.
John D. Cook,

2

Gözlemlenen ve beklenen frekansların yan yana çizildiği tek bir şekil çizebilirsiniz. Dağılımlar çok farklıysa ve aynı zamanda birden fazla varyans ortalama oranına sahipseniz, iyi bir aday negatif binomdur. Bölüm Oku Frekans Dağılımları gelen The R Book. Çok benzer bir problemle ilgileniyor.


1

Sanırım asıl nokta, bir yan fırının yükseltilmiş olması ... deneysel kurulum veya veri oluşturma mekanizması, verilerin bir Poisson dağılımından kaynaklanabileceği fikrini destekliyor mu?

Dağıtım varsayımları için yapılan testlerin hayranı değilim, çünkü bu testler genellikle çok kullanışlı değil. Bana göre daha yararlı görünen şey, tipik olarak çıkarım amacıyla, modelden sapmalara karşı esnek ve makul derecede sağlam olan dağıtım ya da model varsayımlarını yapmaktır. Tecrübelerime göre, ortalama = varyansı görmek o kadar yaygın değil, bu yüzden negatif binom modelinin çoğu daha uygun görünüyor ve Poisson'u özel bir durum olarak içeriyor.

Dağıtım testi yapmak için önemli olan bir diğer nokta, eğer yapmak istediğin buysa, gözlemlenen dağıtımı diğer dağıtımların bir karışımı haline getirecek tabakaların olmadığından emin olmaktır. Tabakaya özgü bireysel dağılımlar Poisson görünebilir, ancak gözlenen karışım olmayabilir. Regresyondan kaynaklanan benzer bir durum, yalnızca Y | X'in koşullu dağılımının normal olarak dağıldığını ve gerçekten Y'nin dağılımının olmadığını varsaymaktadır .


Regresyon hakkındaki son noktanız ancak X rastgele olduğunda geçerlidir. Eğer X sabitse, Y de normal olur. Hayır?

Evet, bu doğrudur, ancak genel regresyon problemleri için (anova veya tasarlanan problemlerin aksine), X gerçekten sabit değildir, ancak temel sürecin gözlemleridir. Bununla birlikte, Poisson vakası için, Poissons'un karışımlarının mutlaka Poisson olması gerekmediği için hala bir nokta var.
Abhijit,

0

Bunu test etmenin bir başka yolu da niceliksel bir niceliksel arsadır. R'de qqplot var. Bu, doğrudan değerlerinizi benzer bir ortalama ve sd ile normal bir dağılıma karşı çizer.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.