Birçok farklı sayım verisi seti için aykırı tespiti içeren, basitçe ileri düz bir problem olduğunu düşündüğüm bir şeye sahibim. Spesifik olarak, bir dizi sayım verisindeki bir veya daha fazla değerin, dağıtımdaki geri sayımlara göre beklenenden yüksek veya düşük olup olmadığını belirlemek istiyorum.
Şaşırtma faktörü, 3.500 dağıtım için bunu yapmam gerektiği ve diğerleri bazılarının normal olarak dağıtılmışken negatif bir binom veya ZINB'ye en iyi uyması muhtemel olsa da, bazılarının sıfır şişirilmiş dağılmış poisson'a uyması muhtemeldir. Bu nedenle, basit Z skorları veya dağılımın çizilmesi veri setinin çoğu için uygun değildir. Aykırı ayraçları tespit etmek istediğim sayım verilerine bir örnek.
counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0
0 0 0 0 1 2 1 1 1 1 1 1 0 1 1 2 0 0 0 1 0 1 2 1 1 0 2 1 1 1 0 0 1 0 0 0
2 0 1 1 0 2 1 0 1 1 0 0 2 1 0 1 1 1 1 2 0 3]
counts2=[0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
1 1 0 0 0]
counts3=[14 13 14 14 14 14 13 14 14 14 14 14 15 14 14 14 14 14 14 15 14 13 14 14
15 12 13 17 13 14 14 14 14 15 14 14 13 14 13 14 14 14 14 13 14 14 14 15
15 14 14 14 14 14 15 14 1414 14 15 14 14 14 14 14 14 14 14 14 14 14 14 13 16]
counts4=[0 3 1.......]
and so on up to counts3500.
Başlangıçta Python veya R'de her dağıtıma bir dizi model uygulayacak ve AIC'ye veya diğerine göre en uygun model seçecek bir döngü yazmam gerekeceğini düşündüm (belki R? 'Deki fitdistrplus). Daha sonra verilen dağıtım için uç noktaların ne olduğunu sorabilirim (örneğin kuyruklara düşen sayılar, örneğin "4" sayısı, yukarıdaki sayım1 dağılımında bir aykırı olur mu?). Bununla birlikte, bunun geçerli bir strateji olduğundan emin değilim ve aklıma geldi ki, aykırı verileri belirlemek için bilmediğim sayım verilerinde basit bir metodoloji olabilir. Yaygın olarak araştırdım ve bakmak istediğim dağıtım sayısı nedeniyle sorunuma uygun görünen hiçbir şey bulamadım.
Nihai hedefim, istatistiki olarak en uygun metodolojiyi kullanarak sayımların her dağılımı için sayımda önemli artışları veya azalışları tespit etmektir.