Poisson regresyonunda aşırı dağılım ile nasıl başa çıkılır: yarı olabilirlik, negatif binom GLM veya konu düzeyinde rastgele etki?

Bir Poisson tepki değişkeninde aşırı dağılım ile başa çıkmak için üç öneriyle karşılaştım ve tüm sabit etkili başlangıç modeli:

Bir yarı model kullanın;
Negatif binom GLM kullanın;
Nesne düzeyinde rastgele efektli karışık bir model kullanın.

Ama hangisini gerçekten seçmeli ve neden? Bunlar arasında gerçek bir kriter var mı?

— Bryan
kaynak

Yarı model, ölçek / dağılım parametresini rahatsız edici bir parametre olarak ele alır ve bu heterojenlik tarafından genişletilen IRR'ler için SE'ler sağlarken negatif binomiyal IRR'ler, ölçek parametresine bağlıdır. Karışık bir model farklı bir etkiyi modeller: bireysel seviye veya koşullu etkiler, negatif binom ve quasipoisson modelleri marjinal modellerdir. Yani aynı şeyi tahmin etmiyorlar.

— AdamO

Tamam, aslında hangisini seçmeli ve bu kararı vermek için kriterler nelerdir?

— Bryan

Poisson modelinin ilgilendiğiniz eğilimi tahmin ettiğini biliyorsanız (verilerden bağımsız olarak) Quasipoisson'u seçeceğinizi düşünüyorum , ancak tasarım veya veri analizi varyans varsayımını tam olarak karşılamıyorsa. Olasılık modelinin aslında negatif binom olduğuna inanmak için iyi bir nedeniniz olsaydı negatif bir binom modeli kullanırsınız ve eğilimde çıkarım yapmaktan ziyade hetero-esnekliği tahmin etmeniz gerekir. Son olarak, maruziyetin popülasyondan ziyade bir birey üzerindeki etkisini bilmek istiyorsanız karışık bir model kullanırsınız (yani hiçbir zaman toksikoloji ile kullanmayın).

— AdamO

@AdamO wrt "karışık model ... maruz kalmanın ... popülasyondan ziyade birey üzerindeki etkisi" ile aynı fikirde değilim . Anladığım kadarıyla, karma modeller konu düzeyindeki etkileri ölçüyor ve sonra bunları bütünleştiriyor. Temel olarak, bu parametre tahminlerinizden yalancı çoğaltma (aynı konu üzerinde birden fazla hesaplama) oluşturur ve popülasyon için (bireysel değil) tarafsız parametre tahminlerinde bulunur. Bu nedenle her zaman karışık modeller kullanıyorum ... umarım bu konuda yanlış değilim!

— RTbecard

Poisson regresyonu sadece bir GLM'dir:

İnsanlar genellikle Poisson regresyonunu uygulamak için parametrik gerekçeden söz ederler . Aslında Poisson regresyonu sadece bir GLM'dir. Bu , iki varsayım karşılandığında Poisson regresyonunun her türlü veri için (sayımlar, derecelendirmeler, sınav puanları, ikili olaylar, vb.) Haklı olduğu anlamına gelir : 1) ortalama sonucun günlüğü , öngörücülerin doğrusal bir kombinasyonudur ve 2) varyans sonucun eşit ortalama . Bu iki koşul sırasıyla ortalama-model ve ortalama-varyans ilişkisi olarak adlandırılır.

Ortalama-model varsayımı, tahmin ediciler için karmaşık bir ayarlama seti kullanılarak biraz rahatlatılabilir. Bu güzel çünkü link fonksiyonu parametrelerin yorumlanmasını etkiler; yorumların inceliği bilimsel bir soruyu cevaplamak ile tüketicileri istatistiksel analizinizden tamamen kaçmak arasındaki farkı yaratır. Başka bir SE yazısında , yorumlama için günlük dönüşümlerinin yararlılığını tartışacağım.

Bununla birlikte, ikinci varsayımın (ortalama-varyans ilişkisi) çıkarım üzerinde güçlü etkileri olduğu ortaya çıkmaktadır. Ortalama varyans ilişkisi doğru olmadığında, parametre tahminleri önyargılı değildir . Bununla birlikte, standart hatalar, güven aralıkları, p-değerleri ve tahminler yanlış ayarlanmıştır. Bu, Tip I hatasını kontrol edemeyeceğiniz ve yetersiz gücünüz olabileceği anlamına gelir.

Ortalama varyans gevşetilebilirse, varyans ortalama ile orantılı olmalıdır? Negatif binom regresyonu ve Quasipoisson regresyonu bunu yapar.

Quasipoisson modelleri

Quasipoisson modelleri olasılık temelli değildir. Orantılı bir sabite kadar Poisson olasılığı olan bir "quasilikelihood" ı maksimuma çıkarırlar. Bu orantılı sabit dağılımdır. Dağılım bir sıkıntı olarak kabul edilirparametre. Maksimizasyon rutini rahatsızlık parametresi ile ilgili bir tahminde bulunurken, bu tahmin popülasyonu genelleştiren herhangi bir değerden ziyade sadece verilerin bir yapaylığıdır. Dispersiyon, varyansın ortalamadan orantılı olarak daha küçük veya daha büyük olmasına göre regresyon parametrelerinin SE'lerini sadece "küçültmek" veya "genişletmek" için kullanılır. Dispersiyon bir rahatsızlık parametresi olarak değerlendirildiğinden, quasipoisson modelleri bir dizi sağlam özelliğe sahiptir: veriler aslında heteroscedastik olabilir (oransal ortalama varyans varsayımını karşılamamaktadır) ve hatta küçük bağımlılık kaynakları sergileyebilir ve ortalama modelin tam olarak doğru olmakla birlikte, regresyon parametreleri için% 95 CI'ler asemptolojik olarak doğrudur.Veri analizi amacınız bir dizi regresyon parametresi ile sonuç arasındaki ilişkiyi ölçmekse, quasipoisson modelleri genellikle gidilecek yoldur. Bu modellerin bir sınırlaması, tahmin aralıkları verememeleri, Pearson kalıntıları size ortalama modelin ne kadar doğru olduğunu söyleyemez ve AIC veya BIC gibi bilgi kriterleri bu modelleri diğer modellerle etkili bir şekilde karşılaştıramaz.

Negatif binom modelleri

Negatif binom regresyonunu 2 parametreli Poisson regresyonu olarak anlamak en faydalı yöntemdir. Ortalama model, sonuç günlüğünün öngörücülerin doğrusal bir kombinasyonu olduğu Poisson ve Quasipoisson modelleriyle aynıdır. Ayrıca, "ölçek" parametresi, varyansın önceki ortalama ile sadece orantılı olduğu bir ortalama-varyans ilişkisi modellemektedir. Bununla birlikte, quasipoisson modellerinden farklı olarak, bu tip model kesin olasılık tabanlı bir prosedürdür. Bu durumda dispersiyon, popülasyonda bir ölçüde genelleştirilebilirliğe sahip olan gerçek bir parametredir. Bu, quasipoisson'a göre birkaç avantaj sağlar, ancak bence, daha fazla (test edilemez) varsayım getiriyor. Quasipoisson modellerinden farklı olarak: veriler bağımsız olmalı, ortalama model doğru olmalı ve ölçek parametresi, doğru çıkarım elde etmek için uygun değerler aralığında homossedastik olmalıdır. Bununla birlikte, bunlar Pearson kalıntılarını inceleyerek bir şekilde değerlendirilebilir ve model uygulanabilir tahmin ve tahmin aralıkları üretir ve bilgi kriterleriyle karşılaştırmaya uygundur.

Negatif binom olasılık modelleri bir Poisson-Gama karışımından kaynaklanır. Yani, Poisson oranı parametresini "besleyen" bilinmeyen bir dalgalanan Gamma rasgele değişkeni vardır. NB GLM fittingi olasılık tabanlı olduğundan, genellikle veri oluşturma mekanizması hakkındaki önceki inançları belirtmek ve bunları eldeki model için olasılıksal mantığa bağlamak yararlıdır. Örneğin, 24 saatlik dayanıklılık yarışından emekli olan yarışçı sayısını test edersem, çevresel koşulların ölçmediğim tüm stres faktörleri olduğunu ve bu nedenle lastik veya nem veya lastik sıcaklığını etkileyen lastik sıcaklığı gibi DNF riskine katkıda bulunduğunu düşünebilirim. çekiş ve dolayısıyla patinaj ve enkaz riski.

Bağımlı veri için modeller: GLMM'ler vs GEE

Poisson verileri için genelleştirilmiş doğrusal karışık modeller (GLMM'ler) yukarıdaki yaklaşımlarla karşılaştırılmamaktadır. GLMM'ler farklı bir soruyu cevaplar ve farklı veri yapılarında kullanılır. Burada veriler arasındaki bağımlılık kaynakları açıkça ölçülmektedir. GLMM'ler bireysel seviye heterojenliğini hesaba katmak için rastgele kesişmeler ve rastgele eğimler kullanır. Bu, tahmin ettiğimizi değiştirir. Rastgele etkiler , yukarıda tartışılan varyanstan ziyade modellenen ortalamayı ve varyansı değiştirir .

Bağımlı verilerde ölçülebilen iki olası düzey vardır: nüfus düzeyi (marjinal) ve bireysel seviye (koşullu). GLMM'ler bireysel düzey (koşullu) ilişkilendirmeleri ölçtüğünü iddia eder: yani, sonuca katkıda bulunan tüm bireysel düzey katılımcıları göz önüne alındığında, öngörücülerin bir kombinasyonunun göreceli etkisi nedir? Örnek olarak, sınav hazırlık kursları örnek okullara devam eden çocuklar için çok az etkili olabilirken, şehir içi çocuklar çok faydalı olabilir. Bu durumda, bireysel düzey etkisi bu durumda önemli ölçüde daha yüksektir, çünkü avantajlı çocuklar pozitif pozlamalar açısından eğrinin çok üzerindedir.

Bağımlı verilere saf olarak quasipoisson veya negatif binom modelleri uygularsak, NB modelleri yanlış olur ve Quasipoisson modelleri verimsiz olur. Bununla birlikte GEE, quasipoisson modelini GLMM gibi bağımlılık yapılarını açıkça modellemek için genişletir, ancak GEE marjinal (nüfus seviyesi) bir eğilimi ölçer ve doğru ağırlıkları, standart hataları ve çıkarımları elde eder.

Veri analizi örneği:

Bu yazı zaten çok uzun :) Eğer ilgileniyorsanız daha fazla okuma referansları ile birlikte, bu öğretici ilk iki model güzel bir örnek var . Söz konusu veriler, at nalı yengeçlerinin yuvalama alışkanlıklarını içerir: dişiler yuvalara oturur ve erkekler (uydular) ona bağlanır. Müfettişler, dişinin özelliklerinin bir fonksiyonu olarak bir kadına bağlı erkeklerin sayısını ölçmek istediler. Umarım karışık modellerin neden karşılaştırılamaz olduğunu vurguladım: Bağımlı verileriniz varsa, bu bağımlı verilerin bir GLM veya GEE yanıtlamaya çalıştığı soru için doğru modeli kullanmanız gerekir.

Referanslar:

[1] Agresti, Kategorik Veri Analizi 2. Baskı

[2] Diggle, Heagerty, Liang, Zeger, Boyuna Verilerin Analizi 2nd ed.

— Adamo
kaynak