Modellemeye çalıştığım çift zirveye sahip verilerim var ve tepeler arasında bağımsız olarak tedavi edemediğim kadar örtüşme var. Verilerin histogramı şöyle görünebilir:
Bunun için iki model oluşturdum: biri iki Poisson dağılımı kullanıyor, diğeri iki negatif binom dağılımı kullanıyor (aşırı dağılım için). Hangi modelin verilere daha doğru uyduğunu söylemenin uygun yolu nedir?
İlk düşüncem, her modeli verilerle karşılaştırmak için Kolmogorov-Smirnov testini kullanabileceğim, sonra birinin daha iyi uyup uymadığını görmek için bir olasılık oranı testi yapabileceğimdir. Bu mantıklı mı? Öyleyse, olasılık oranı testinin nasıl yapılacağından tam olarak emin değilim. Ki kare uygun mu ve kaç serbestlik derecem var?
Yardımcı olursa, modeller için bazı (çok basitleştirilmiş) R kodları şöyle görünebilir:
## inital data points
a <- read.table("data")
#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)
#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)
#here's where I'd do some sort of likelihood ratio test
# . . .
Düzenleme: İşte veri ve daha iyi uydurma dağıtımları açıklayabilir bir görüntü. Görselleştirmeden, ikinci modelin (aşırı dağılmayı hesaba katmak için negatif binom dist kullanarak) daha iyi bir uyum olduğu açıktır. Yine de bunu nicel olarak göstermek istiyorum.
(kırmızı - veri, yeşil - model)