İki dağılımı birleştiren bir modelde uyum iyiliğinin ölçülmesi


9

Modellemeye çalıştığım çift zirveye sahip verilerim var ve tepeler arasında bağımsız olarak tedavi edemediğim kadar örtüşme var. Verilerin histogramı şöyle görünebilir:

alternatif metin

Bunun için iki model oluşturdum: biri iki Poisson dağılımı kullanıyor, diğeri iki negatif binom dağılımı kullanıyor (aşırı dağılım için). Hangi modelin verilere daha doğru uyduğunu söylemenin uygun yolu nedir?

İlk düşüncem, her modeli verilerle karşılaştırmak için Kolmogorov-Smirnov testini kullanabileceğim, sonra birinin daha iyi uyup uymadığını görmek için bir olasılık oranı testi yapabileceğimdir. Bu mantıklı mı? Öyleyse, olasılık oranı testinin nasıl yapılacağından tam olarak emin değilim. Ki kare uygun mu ve kaç serbestlik derecem var?

Yardımcı olursa, modeller için bazı (çok basitleştirilmiş) R kodları şöyle görünebilir:

## inital data points
a <- read.table("data")

#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)

#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)

#here's where I'd do some sort of likelihood ratio test
# . . .

Düzenleme: İşte veri ve daha iyi uydurma dağıtımları açıklayabilir bir görüntü. Görselleştirmeden, ikinci modelin (aşırı dağılmayı hesaba katmak için negatif binom dist kullanarak) daha iyi bir uyum olduğu açıktır. Yine de bunu nicel olarak göstermek istiyorum. alternatif metin

(kırmızı - veri, yeşil - model)


her bölmedeki değerlerin olasılık dağılımını biliyor musunuz ? Y ekseni etiketi, bunun Poisson veya Multinomial olabileceğini düşündürüyor mu? (bir modelin her
bölmedeki

Veriler esasen iki Poisson işleminden alınmıştır, ancak düzeltemediğim ve aşırı dağılmaya neden olan gizli değişkenler vardır. Bu nedenle, negatif bir binom kesinlikle daha iyi bir modeldir. (yukarıda eklediğim yeni resme / metne bakın). Benim nb modeli nicel olarak daha uygun olduğunu göstermek gerekir.
chrisamiller

1
Gerçek ve tahmini değerler arasındaki Ortalama Kare Hatası gibi bir metriğe ne dersiniz?

hrmm - Bu fikri seviyorum Srikant. Düşündüğümden çok daha basit, ama yine de mantıklı. Kredi vermek ve yolunuzu biraz temsilcisi göndermek için aşağıdaki bir cevap içine atın. Hala başka yöntemler duymakla ilgileniyorum, ama bu şimdilik işe yarayabilir.
chrisamiller

Yanıtlar:


4

İki modeli karşılaştırmak için gerçek ve öngörülen değerler arasında Ortalama Kare Hatası gibi bir metrik kullanabilirsiniz .


1
Glen_b'in yanıtı daha fazla bilgi edinmeme yardımcı olmasına rağmen, bu benim durumum için doğru cevaptı. Onun için daha fazla oy, Srikant'ın cevabını kabul etti. Herkes kazanır - teşekkürler.
chrisamiller

8

Negatif Binom'un daha fazla parametresi olduğundan bunları doğrudan karşılaştıramazsınız. Aslında Poisson, Negatif Binom içinde sınırlayıcı bir durum olduğu için "iç içe geçer", bu nedenle NegBin her zaman Poisson'dan daha iyi uyur . Bununla birlikte, bu bir olasılık oran testi gibi bir şeyi düşünmeyi mümkün kılar, ancak Poisson'un negatif binom için parametre alanının sınırında olması test istatistiğinin dağılımını etkileyebilir.

Her durumda, parametre sayısındaki fark bir sorun olmasa bile, tahmini parametrelere sahip olduğunuz için KS testlerini doğrudan yapamazsınız ve KS özellikle tüm parametrelerin belirtildiği durum içindir. Bootstrap kullanma fikriniz bu sorunla ilgilenir, ancak birincisi değil (parametre sayısındaki fark)

Ayrıca, örneğin ki-kare uyum iyiliği testinin ilgili bileşenlere (Poisson modelinden sapmaların ölçülmesi) bölünmesine yol açabilecek uyum iyiliği testlerini de (örneğin Rayner ve Best'in kitabına bakın) düşünürdüm. Bu durumda) - dördüncü sıra veya altıncı sıra demek için bu, NegBin alternatifi için iyi bir güce sahip bir teste yol açmalıdır.

(Düzenleme: Poisson ve negbin uyumlarınızı ki-kare testi ile karşılaştırabilirsiniz, ancak düşük güce sahip olacaktır. Ki-kare bölümleme ve sadece ilk 4-6 bileşenlerini söylemek pürüzsüz testlerle yapıldığı gibi daha iyi yapabilir .)


Teşekkürler. Bu, bir sürü şeyi açıklığa kavuşturur ve üzerinde biraz araştırma yapmam gereken bir dizi yeni soru açar. Sanırım asıl sorum şu ki, söylediğiniz şey daha basit bir şeyin, sadece kök alma kare hatası gibi, bu soruna yaklaşmanın geçerli bir yolu olmadığı anlamına mı geliyor? Muhtemelen o kadar sağlam olmadığını ve bana bir p değeri vermeyeceğini söyleyeceğim, ancak referansta bulunduğunuz kitabın bir kopyasını bulmaya çalışırken hızlı bir şekilde yapabileceğim bir şey. Herhangi bir düşünce takdir edilecektir.
chrisamiller

2
bir dizi noktanız olduğunu (x, y) düşünün ve düz bir çizgiye veya karesel bir düzeye uyup uymayacağınızı düşünüyorsunuz. RMSE'yi karşılaştırırsanız, kuadratik her zaman düz çizgiyi geçecektir , çünkü çizgi bir parametre sıfıra ayarlanmış bir kuadratiktir: parametrenin en küçük kareler tahmini tam olarak sıfırsa (sürekli yanıt için sıfır olasılığı vardır), bir kravat ve diğer her durumda hat kaybeder. Poisson'a karşı negatif binomiye aynı şey - ücretsiz bir Negatif Binom her zaman en az bir serbest Poisson'a sığabilir.
Glen_b -Reinstate Monica

Güzel açıklama - Şimdi söylediklerini anlıyorum. Benim durumum biraz farklı olduğunu düşünüyorum, çünkü bir uyum elde etmek için regresyon yapmıyorum, ama bunun yerine, ekstra NB parametresini dış bilgilere dayandırıyorum (var / mean oranının N olmasını bekliyorum). Poisson, N = 1 olan özel bir durum olduğu için, gerçekten karşılaştırdığım şey N'nin seçimidir. Eğer regresyon yapsaydım, NB her zaman daha iyi bir uyum bulabilir, çünkü daha az kısıtlıdır. Benim durumumda, N için bir değer seçtiğimde, uyumu daha da kötüleştiren N'nin çılgın bir değerini seçmek kesinlikle mümkün olurdu.
chrisamiller

Kesinlikle önerdiğiniz uyum iyiliği testlerini okuyacağım. Bilgilendirici cevaplar için teşekkürler.
chrisamiller

Verilerin aşırı dağılım parametresi seçimine gelmediğini bilmediğim için üzgünüm. Bunu kendi tarzınızda yapmak için bazı argümanlar olabilir, ancak dış tahmin gerçekte gözlemlediğiniz şeyi yansıtacaksa, koşullara bağlı olarak NB'nin hala bir avantajı olabilir.
Glen_b-Monica Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.