Sayım verileri için uygun modele karar verme stratejisi


16

Sayım verileriyle hangi modelin kullanılacağına karar vermek için uygun strateji nedir? Ben çok düzeyli bir model olarak modellemek için gereken veri sayım var ve bunu (bu sitede) bunu yapmak için en iyi yolu böcek veya MCMCglmm olduğunu tavsiye edilmiştir. Ancak ben hala bayes istatistikleri hakkında bilgi edinmek için çalışıyorum, ve ben ilk genelleştirilmiş doğrusal modeller olarak benim veri uydurmak ve veri iç içe yapısını görmezden (sadece ne olacağını belirsiz bir fikir alabilirsiniz) düşündüm.

Verilerin yaklaşık% 70'i 0'dır ve varyansın ortalamaya oranı 33'tür. Dolayısıyla veriler oldukça fazla dağınıktır.

Bir dizi farklı seçeneği denedikten sonra (poisson, negatif binomial, yarı ve sıfır şişirilmiş model dahil) sonuçlarda çok az tutarlılık görüyorum (her şeyden önemli olan hiçbir şey önemli değildir).

0 enflasyon ve aşırı dağılma temelinde hangi modelin seçileceği konusunda bilinçli bir karar vermeyi nasıl başlatabilirim? Örneğin, yarı-poissonun negatif binomdan (veya tam tersi) daha uygun olduğunu nasıl anlayabilirim ve bu ikisinden birini kullanmanın aşırı sıfırlarla yeterince (veya değil) uğraştığını nasıl bilebilirim? Benzer şekilde, sıfır şişirilmiş bir model kullanılırsa daha fazla aşırı dağılım olmadığını nasıl değerlendirebilirim? ya da sıfır şişirilmiş bir poisson ile sıfır şişirilmiş negatif binom arasında nasıl karar vermeliyim?

Yanıtlar:


9

Sayım modellerini her zaman tahminlerine bakarak (tercihen bir uzaklaştırma setinde) karşılaştırabilirsiniz. J. Scott Long bunu grafiksel olarak tartışıyor (tahmin edilen değerleri gerçeklere karşı çiziyor). Onun ders kitabı burada ayrıntılarda anlatmaktadır ama bakabilirsiniz bu belge üzerinde 6.4 .

AIC veya BIC kullanarak modelleri karşılaştırabilirsiniz ve Voung testi adı verilen, çok aşina olmadığım, ancak şişirilmiş sıfırları iç içe olmayan modellerle karşılaştırabileceğiniz bir test de var. İşte başlamanız için sayfa 10'da kısaca açıklayan bir Sas makalesi . Ayrıca R implmented edilir gönderme


Tavsiye için teşekkürler. Modele karar vermeden önce tahminleri kesinlikle incelemeye çalışacağım
George Michaelides

5

B_Miner'ın söylediklerine eklemek için birkaç şey:

1) Modellerin "önemli olan her şey" ile "anlamlı olmayan hiçbir şey" arasında değiştiğini yazdınız, ancak bu, modelleri karşılaştırmak için iyi bir yol değildir. Bunun yerine, öngörülen değerlere (B_miner'ın önerdiği gibi) ve efekt boyutlarına bakın.

2) Verilerin% 70'i 0 ise, 0 enflasyonu olmayan bir modelin uygun olduğunu düşünemiyorum.

3) Bayesian gitmek istemeseniz bile SAS'ta (PROC GLIMMIX veya NLMIXED) ve R'de (çeşitli paketler) GLMM'leri kullanabilirsiniz. Yuvalanmış doğayı görmezden gelmek her şeyi mahvedebilir.

4) Genel olarak, hangi modelin en iyi olduğuna karar vermek bir bilim değil, bir sanattır. Kullanılacak istatistikler var, ancak bunlar bir yargılama kılavuzu. Sadece yazdıklarına bakarak, bir ZINB modelinin doğru göründüğünü söyleyebilirim


Niyetim sonunda Bayesian kullanarak bunu modellemeye çalışacağım, ama modelleri uymadan önce nasıl bir karar verebileceğimi anlamaya çalışıyordum. Verilerin iç içe doğasını görmezden gelme olaylarını mahvetme olasılığı varsa, önce onları GLMM'leri deneyeceğim. Çok düzeyli ZINB yapabileceğimi bildiğim R için tek paket glmmADMB. Başka paketler önerir misiniz?
George Michaelides

4

Anladığım kadarıyla, sıfır şişirilmiş dağılımların, belirli öğelerin, başka herhangi bir sayıya karşı sıfır sayısı üretmesinin bir mantığı olduğunda kullanılması gerekir. Başka bir deyişle, sıfırlar diğer sayımları üretenlerden ayrı bir işlemle üretiliyorsa sıfır şişirilmiş dağılım kullanılmalıdır. Bunun için herhangi bir gerekçe yoksa, numunenizdeki aşırı dağılım göz önüne alındığında, sıfırların bolluğunu doğru bir şekilde temsil ettiği ve bu parametreyi serbestçe tahmin ederek gözlemlenmeyen heterojenliği temsil ettiği için negatif bir binom dağılımı kullanmanızı öneririm. Yukarıda belirtildiği gibi, Scott Long'un kitabı büyük bir referanstır.


Cevabınız için teşekkürler. Aslında, farklı öğelerin 0'ları başka bir sayıya göre üretip üretemeyeceğini düşünmeye başladım ve aslında sadece 0'ları başka herhangi bir sayıya göre açıklayacak birkaç değişkenim olduğunu düşünüyorum. Bu yüzden muhtemelen en azından ilk önce bu değişkenler benim çalışmak için beklediğiniz şekilde çalışır görmek için ZINB denemek gerekir.
George Michaelides

3

Matt'in söylediklerine kesinlikle katıldım, önce verilerin arka planını düşünmelisiniz ... Popülasyonda Sıfır üreten tetikleyiciler olmadığında ZI modellerine uymak mantıklı değil! NB modellerinin avantajı, bir gama dağıtılmış rastgele değişkente gözlemlenmeyen heterojenliği gösterebilmeleridir. Teknik: Aşırı dağılmanın temel nedenleri Heterojenite ve Sıfır enflasyonu ortaya çıkarır. Senin uyumunun kötü olduğuna inanmıyorum. Btw uyum iyiliği elde etmek için her zaman Sapma ile modelinizin özgürlük derecelerini karşılaştırmalısınız. Sapma D, n- (p + 1) 'den daha yüksekse (bu df), daha iyi bir model aramalısınız. Aşırı dağılmadan kurtulmak için ZINB'den daha iyi modeller olmamasına rağmen.

R ile bir ZINB takmak istiyorsanız, paketi alın psclve komutu kullanmayı deneyin zeroinfl(<model>, dist=negative). Daha fazla bilgi ?zeroinfliçin gerekli paketi yükledikten sonra bakın !

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.