Poisson değilse, bu hangi dağıtımdır?

11

7 gün boyunca bireylerin gerçekleştirdiği eylem sayısını içeren bir veri setim var. Özel eylem bu soru için geçerli olmamalıdır. Veri kümesi için bazı tanımlayıcı istatistikler:

\begin{array}{cc} Range & 0 - 772 \\ Mean & 18.2 \\ Variance & 2791 \\ Number of observations & 696 \end{array}

$\begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 \\ \hline \text{Variance} & 2791 \\ \hline \text{Number of observations} & 696 \\ \hline \end{array}$

Verilerin bir histogramı: eylem histogramı

Verilerin kaynağından yola çıkarak, bunun bir Poisson dağılımına uyacağını düşündüm. Bununla birlikte, ortalama ian varyans ve histogram ağır sola ağırlıklandırılır. Ayrıca, goodfittesti R'de çalıştırdım ve aldım:

> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2                   df         P(> X^2) <br>
Pearson 2.937599e+248 771        0

Maksimum Olabilirlik yöntemi de p-değeri = 0 verdi. Boş hipotez olduğu varsayıldığında: veriler bir Poisson dağılımıyla eşleşir (dokümantasyon bunu belirtmez), sonra goodfittest boş hipotezi reddetmemiz gerektiğini söyler, bu nedenle veriler bir Poisson dağılımıyla eşleşir.

Bu analiz doğru mu? Eğer öyleyse, bu verilere hangi dağıtımın uygun olacağını düşünüyorsunuz?

Nihai hedefim, araçların farklı olup olmadığını görmek için 2 örnek arasındaki ortalama eylem sayısını karşılaştırmak; dağıtımın kontrol edilmesi bile gerekli mi? Anladığım kadarıyla tipik testler (z-, t-, testleri) Poisson dağılımları için işe yaramıyor. Veriler gerçekten Poisson dağıtılmışsa hangi testi kullanmalıyım? $\chi^2$

— Dcook
kaynak

negatif binomu zaten denedin mi? Bu yardımcı oldu mu?

— Ric

@Richard, negatif binom denedim ve bu uygun değildi. Yine de öneriler için teşekkürler. Bunun ne tür bir dağıtım olduğunu anlayamadığım için, dağıtımı görmezden gelmeye ve parametrik olmayan bir test olan Mann-Whitney U testine gitmeye karar verdim.

— Dcook

Neg bin için sadece bir not daha. Gelen en.wikipedia.org/wiki/Negative_binomial_distribution size, formülü ve varyans ve görüyoruz . Böyle bir herhangi bir anlam ifade eder mi? Değilse, negatif kutunun burada iyi bir model olmadığına dair daha fazla kanıt vardır (eğer tahmincilere inanırsak).

m e a n / v a r i a n c e = 1 - p

$mean/variance = 1-p$

p

$p$

— Ric

Benim durumumda Bernoulli davası kavramının geçerli olduğunu düşünmüyorum. Başarı ya da başarısızlık kavramı yoktur; konular ya ilgi eylemi yürütmek ya da değil. Denemez ve başarısız olmazlar. Bu nedenle, başarı olasılığı fikri mantıklı değil. Duruşma bir zaman birimi olmadığı sürece. Ancak, o zaman konunun birden fazla eylem gerçekleştirmesini engelleyecek hiçbir şey yoktur.

— Dcook

verilerinizi nasıl yorumlayacağınızı en iyi siz bilirsiniz. Size sadece neg.bin'i hatırlatmak istedim. bir Poisson karışımı olarak ortaya çıkar (eğer bir Gama dağılımını takip ederse , Poisson örneğinde olduğu gibi yorumlanabilir. Ama sizi zorlamak istemiyorum :). Bir yorum daha: özne bir zaman noktasında birden fazla eylem gerçekleştirebilirse: o zaman Bileşik Poisson / NegBin olamaz mı? Bununla ilgili daha fazla açıklama yapmak istiyorsanız lütfen bana bildirin.

l m a b d a

$lmabda$

— Ric

8

Varyans ortalamadan büyükse buna aşırı dağılım denir. Bunun doğal bir modeli negatif binom dağılımıdır. Bu, Parametre lambda'nın bir Gama dağılımını izlediği bir Poisson dağılımı olarak da görülebilir. İlk ve kolay bir adım, negatif bir binom dağılımına uymak olabilir.

— Ric
kaynak

5

Ham sayım verileriniz bir Poisson dağılımı gibi görünmüyorsa, bir şey eksik demektir. Belki de eylem sayısı sıcaklığa bağlıdır, bu nedenle sıcak günlerde insanlar daha az şey yapar. Bu durumda, çalışma sürenizdeki sıcaklık değişimi dağılımı etkileyecek ve Poisson dışı hale getirecektir.

Bununla birlikte, her gün eylem sayısı, sıcaklığa bağlı bir ortalama ile hala Poisson olabilir. Her gün sıcaklığınız varsa, o zaman bir PoM değişkeni olarak sıcaklığa bağlı olarak eylem sayısını azaltarak bir GLM yapabilirsiniz. Bu iyi uyuyorsa, iş bitti.

Olası açıklayıcı değişkenleriniz yoksa, söyleyebileceğiniz tek şey "başka bir şey oluyor - eylem sayısı bağımsız Poisson örneklerinden değil" - yani sıfır hipotezinizi reddetmek.

Sıralamaları kullanarak eşleştirilmiş gözlemleri karşılaştırabilen dağıtımsız testler vardır. Genellikle çok sayıda permütasyon yaparlar ve bir test istatistiği hesaplarlar ...

— Spacedman
kaynak

4

Bir şey daha var: Sayım verilerindeki aykırı değerleri de araştırmalısınız. 400-ish'de bir sayınız var ve 800-ish'ye kadar hiçbir şey yok. Bu, ortak modellerin hiçbirine uygun olmayabilir.

— Scortchi - Monica'yı eski durumuna döndürün
kaynak

1

Sıfır etkinliklerinin sayısını sayma gibi görünüyor - bakınız - yani, o zaman bir ZIP modeli (veya Engel) düşünebilirsiniz eğer Ar Kont Veriler için Regresyon Modelleri bir bakış için Zeileis vd.

Kabaca özetlemek gerekirse, bu yöntemler sıfır sayımlarını davanızda yararlı olabilecek geri kalan sayımlardan ayrı olarak modellemektedir.

Bakın psclpaketi ve zeroinfl()ve hurdle()işlevleri.

— Sean
kaynak

1

Histogramınızın aldatıcı bir şekilde bölündüğünden şüpheleniyorum. Eğer 0-50 aralığında eşit olarak 300'den fazla gözleminiz varsa , yaklaşık 320 50-100 aralığında ve 100 veya 50'nin üzerinde 100'e eşit olarak yayılmışsa, ortalamanız 18,2'den büyük olmalıdır.

0-50 aralığındaki veriler eşit olarak yayılmaz ancak sıfıra yakın yoğunlaşırsa, 50-100 aralığında 0-50 aralığından daha fazla görmek şaşırtıcıdır.

Belki de bir dağıtım karışımınız var. Herkesin gerçek 696 gözlemleri olmadan ve özellikle bağlam hakkında daha fazla bilgi sahibi olmadan çok şey yapabileceğinden şüpheliyim. 696 gözlemin her biri bir birey midir ve tepki her bireyin gerçekleştirdiği eylem sayısıdır mı? Varsa, verilerde farklı türde bireyler var mı?

— Emil Friedman
kaynak