Poisson dağılımının normal dağılımdan farkı nedir?


29

Aşağıdaki gibi Poisson dağılımına sahip bir vektör oluşturdum:

x = rpois(1000,10)

Kullanarak bir histogram yaparsam hist(x), dağıtım bilinen bir çan şeklindeki normal dağılıma benziyor. Bununla birlikte, Kolmogorov-Smirnoff testi kullanılarak ks.test(x, 'pnorm',10,3)yapılan bir test , dağılımın çok küçük bir pdeğere bağlı olarak normal dağılımdan önemli ölçüde farklı olduğunu söylüyor .

Öyleyse sorum şudur: histogram normal dağılıma bu kadar benziyorsa, Poisson dağılımının normal dağılımdan farkı nedir?


Ayrıca (David'in cevabına bir eklenti olarak): Bunu okuyun ( stats.stackexchange.com/a/2498/603 ) ve örneklem büyüklüğünüzü 100 olarak ayarlayın ve farkını görün.
user603

Yanıtlar:


20
  1. Normal dağılım sürekli iken Poisson dağılımı kesiklidir ve Poisson rasgele değişkeni daima> = 0'dır. Dolayısıyla, bir Kolgomorov-Smirnov testi genellikle farkı söyleyebilecektir.

  2. Bir Poisson dağılımının ortalaması büyük olduğunda, normal dağılıma benzer hale gelir. Ancak, rpois(1000, 10)bile görünmüyor bu normal bir dağılım gibidir (0 olarak kısa durur ve sağ kuyruk çok uzun).

  3. Neden karşılaştırdığınız ks.test(..., 'pnorm', 10, 3)ziyade ks.test(..., 'pnorm', 10, sqrt(10))? 3 ile arasındaki fark küçüktür, ancak dağılımları karşılaştırırken kendisi de bir fark yaratacaktır. Dağılım gerçekten normal olsa bile, muhafazakar bir p-değer dağılımına sahip olursunuz:10

    set.seed(1)
    
    hist(replicate(10000, ks.test(rnorm(1000, 10, sqrt(10)), 'pnorm', 10, 3)$p.value))
    

görüntü tanımını buraya girin


3
Genellikle insanlar belirsiz bir şekilde simetrik bir şey görür ve "normal" göründüğünü varsayar. @ Ross'un gördüklerinden şüpheleniyorum.
Fraijo

2
KS testinin genel olarak sürekli dağılımlar üstlendiğine dikkat edin, bu nedenle bu durumda bildirilen p değerine güvenmek biraz şüpheli olabilir.
kardinal

1
Doğru: koşmak hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))iki özdeş Poisson dağılımını karşılaştıran bir testin çok tutucu olacağını göstermektedir.
David Robinson,


17

İşte bunu anlamanın çok daha kolay yolu:

Binom dağılımına, çoğu dağıtımın "anası" olarak bakabilirsiniz. Normal dağılım, n yeterince büyüdüğünde Binom dağılımının yaklaşık bir değeridir. Aslında, Abraham de Moivre Binom dağılımını yaklaşık olarak hesaplamaya çalışırken normal dağılışı keşfetti, çünkü Binom dağılımını hesaplamak hızlı bir şekilde elden çıkar, çünkü n büyüdükçe özellikle bilgisayarlarınız olmadığında ( referans ).

Poisson dağılımı aynı zamanda Binom dağılımının bir başka yaklaşımıdır, ancak n büyük ve p küçük olduğunda normal dağılıma göre çok daha iyidir , ya da ortalama olarak varyansla yaklaşık olarak aynı olduğunda daha kesindir (Binom dağılımında, ortalama = np ve var = np (1-p)) ( referans ). Bu özel durum neden bu kadar önemli? Anlaşılan gerçek dünyada çok fazla yüzey var ve bu yüzden bu "özel" yaklaşıma sahibiz. Aşağıdaki örnek, Poisson yaklaşımının gerçekten harika çalıştığı senaryoları göstermektedir.

Örnek

100.000 bilgisayardan oluşan bir veri merkezimiz var. Herhangi bir bilgisayarın bugün başarısız olma ihtimali 0.001. Yani ortalama olarak np = 100 bilgisayar veri merkezinde başarısız oluyor. Bugün sadece 50 bilgisayarın başarısız olma olasılığı nedir?

Binomial: 1.208E-8
Poisson: 1.223E-8
Normal: 1.469E-7

Aslında, normal dağılım için yaklaştırma kalitesi, dağıtımın kuyruğuna girerken boşa gider, ancak Poisson çok güzel bir şekilde durmaya devam eder. Yukarıdaki örnekte, bugün yalnızca 5 bilgisayarın başarısız olma ihtimalinin ne olduğunu düşünelim?

Binomial: 2.96E-36 
Poisson: 3.1E-36
Normal: 9.6E-22

Umarım, bu size bu 3 dağıtımın sezgisel olarak daha iyi anlaşılmasını sağlar.


Ne şaşırtıcı ve harika bir cevap! Çok teşekkürler. :)
Bora M. Alper

11

Bir Poisson ( ) , ile bir Binomial'ın ( , ) sınırlayıcı bahsetmeye değer olduğunu düşünüyorum .n p n p n = λ / nλnpnpn=λ/n

Bu blogda oldukça uzun bir gelişme bulunabilir .

Ancak bunu ekonomik olarak da burada ispatlayabiliriz. Eğer , sabitk P ( x , n = k )XnBinomial(n,λ/n) k

P(Xn=k)=n!k!(nk)!(λn)k(1λn)nk=n!nk(nk)!1λkk!(1λ/n)neλ(1λ/n)k1.

İlk ve son terimlerin kolayca olarak 1'e yaklaştığı görülür ( sabit olduğunu hatırlayarak ). Yani, olarak beri .nkn ( 1 - λ / n ) ne - λ

P(Xn=k)eλλkk!,
n(1λ/n)neλ

Ek olarak, Binom için normal bir yaklaşıma sahiptir, yani Binom ( , ) . Yaklaşım olarak geliştirir ve uzaklıkta 0 ve 1. Tabii ki, Poisson rejimine kalır, bu durum böyle değildir (çünkü orada ), fakat daha büyük bir büyüktür olabilir ve hala makul bir normal yaklaşım olabilir.p d , N ( n- p , n, p ( 1 - p ) ) n ∞ iken p p , n = λ / N 0 λ nnpdN(np,np(1p))nppn=λ/n0λn


(+1) Siteye Hoşgeldiniz. Birkaç düzenleme yaptım; lütfen bu işlemde herhangi bir hata yapmadığımı kontrol edin. Son cümlede en son ifadeden ne yapılacağından emin değildim. Bazı ek açıklamalar yararlı olabilir.
kardinal,

1
Bunun yönünü sevdim, ancak üç dağıtım arasındaki bağlantıları daha net hale getirerek eldeki soruya biraz daha yakın ilişki kurmanın yolları olabilir. Örneğin (a) Bir binom rastgele değişkeni (sekans), olduğu sürece bir Poisson gibi davranır , (b) Bir binom (sekans), yaklaşık olarak sabit bir sabit olduğu sürece normal gibi davranır ve (c ) bir Poisson (dizi), esasen sonsuz bölünebilirliği nedeniyle büyük için normal gibi davranır . p λnpnλpλ
kardinal

1
Güzel yorumlar @cardinal. Sabit geniş için son cümlede, Hakkında daha büyük büyük (örneğin yakın olan ). Bu nedenle, Binom'a ve sırayla Poisson'a Normal yaklaşım daha iyi. λ p , n 1 / 2nλpn1/2
muratoa

Teşekkürler. Şimdi ne söylemeye çalıştığını anladım. Genel olarak, sabit olduğu düşünülen ve diğerleri ile değişkenlik gösteren parametreler arasındaki ilişkiyle ilgili bazı özenlerin alınması gerektiğine dikkat ediyorum. :)
kardinal

Selam Murat ve siteye hoşgeldiniz! seni burada görmek güzel ve umarım etrafta dolaşırsın. Açıklama yapmak için 1 neden zaman poisson histogramı normal o çok benziyor büyüktür. λ
Makro
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.