y
Normal bir tahminciden sayım verilerini öngören bir engel modeli göz önünde bulundurun x
:
set.seed(1839)
# simulate poisson with many zeros
x <- rnorm(100)
e <- rnorm(100)
y <- rpois(100, exp(-1.5 + x + e))
# how many zeroes?
table(y == 0)
FALSE TRUE
31 69
Bu durumda, 69 sıfır ve 31 pozitif sayım ile sayım verilerim var. Bu, veri üretme prosedürünün tanımıyla bir Poisson işlemi olduğu için boşa harcıyorum, çünkü sorumu engel modelleri hakkında.
Diyelim ki bu aşırı sıfırları bir engel modeli ile ele almak istiyorum. Onlar hakkında okuduğumda, engel modelleri aslında gerçek modeller değil gibi görünüyordu - sırayla sadece iki farklı analiz yapıyorlar. İlk olarak, değerin sıfıra karşı pozitif olup olmadığını öngören lojistik bir regresyon. İkincisi, sadece sıfır olmayan durumları içeren sıfır kesikli bir Poisson regresyonu . Bu ikinci adım benim için yanlış hissettirdi, çünkü (a) verinin çoğu sıfır olduğundan ve (b) temelde kendi başına bir "model" olmadığı için (b) güç sorunlarına yol açabilecek olan tamamen iyi verileri atmaktır. , ancak sıralı olarak iki farklı modeli çalıştırıyor.
Bu yüzden sadece lojistik ve sıfır kesikli Poisson regresyonunu ayrı ayrı çalıştırmak yerine "engel bir model" denedim. Bana aynı cevaplar verdiler (kısaltmanın iyiliği için çıktıyı kısaltıyorum):
> # hurdle output
> summary(pscl::hurdle(y ~ x))
Count model coefficients (truncated poisson with log link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.5182 0.3597 -1.441 0.1497
x 0.7180 0.2834 2.533 0.0113 *
Zero hurdle model coefficients (binomial with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.7772 0.2400 -3.238 0.001204 **
x 1.1173 0.2945 3.794 0.000148 ***
> # separate models output
> summary(VGAM::vglm(y[y > 0] ~ x[y > 0], family = pospoisson()))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.5182 0.3597 -1.441 0.1497
x[y > 0] 0.7180 0.2834 2.533 0.0113 *
> summary(glm(I(y == 0) ~ x, family = binomial))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.7772 0.2400 3.238 0.001204 **
x -1.1173 0.2945 -3.794 0.000148 ***
---
Bu bana çok açık geliyor çünkü modelin birçok farklı matematiksel gösterimi, pozitif sayım durumlarının tahmininde bir gözlemin sıfır olma olasılığını da içeriyor, ancak yukarıda koştuğum modeller birbirini tamamen görmezden geliyor. Örneğin, bu, Kategori ve Sürekli Sınırlı Bağımlı Değişkenler için Smithson & Merkle'ın Genelleştirilmiş Doğrusal Modellerinin Bölüm 5, sayfa 128'den alınmıştır :
... İkinci olarak, bu olasılık herhangi bir değeri (sıfır ve pozitif tamsayı) kabul biri eşit olmalıdır. Denklem (5.33) 'te bu garanti edilmez. Bu konuyla başa çıkmak için Poisson olasılığını Bernoulli başarı olasılığı ile çarpıyoruz . Bu sorunlar yukarıdaki engelleme modelini olarak ifade etmemizi gerektirir. burada , ,
Poisson modelinin eş değişkenleri, , lojistik regresyon modelinin eş değişkenleridir ve ve ilgili regresyon katsayılarıdır ... .
İki modeli birbirinden tamamen ayırarak - bu, engelli modellerin yaptığı gibi gözüküyor - nın pozitif sayım durumlarının öngörülmesine nasıl dahil edildiğini anlamıyorum . Ancak , sadece iki farklı modeli çalıştırarak işlevi nasıl çoğaltabildiğime bağlı olarak, kesikli Poisson'da nasıl bir rol oynadığını göremiyorum hiç de gerileme.hurdle
Engel modellerini doğru anlıyor muyum? İkisinin sadece iki sıralı modeli yönetiyor gibi görünüyorlar: Birincisi, bir lojistik; İkincisi, bir Poisson, olduğu durumları tamamen görmezden geliyor . Birisi ile olan kafamdaki karışıklığı giderirse memnun olurum .
Eğer engelli modellerin ne olduğu doğru değilse, daha genel olarak bir "engelli" modelin tanımı nedir? İki farklı senaryo düşünün:
Rekabet gücü puanlarına bakarak seçim yarışlarının rekabet edebilirliğinin modellenmesini hayal edin (1 - (kazananların oy oranı - koşucuların oy oranı). Bu [0, 1), çünkü bağ yok (ör. 1). Bir engelleme modeli burada mantıklı geliyor, çünkü seçimden biri a (a) seçilemedi. ve (b) değilse, rekabetçiliği ne öngördü? Böylece önce 0'a (0, 1) analiz etmek için lojistik bir regresyon yaparız. Sonra (0, 1) vakalarını analiz etmek için beta regresyon yapıyoruz.
Tipik bir psikolojik çalışma düşünün. Yanıtlar [7, 7], geleneksel bir Likert ölçeği gibi, 7'de büyük bir tavan etkisi ile [1, 7] şeklindedir. Biri 7'ye göre [1, 7) 'nin lojistik olarak gerilemesi ve ardından tüm durumlarda bir Tobit gerilemesi olabilir. gözlemlenen cevaplar <7'dir.
İki sıralı modelle tahmin etsem bile , bu durumların her ikisine de "engel" modelleri denemek güvenli olur mu (ilk önce lojistik ve sonra beta, ikinci ve lojistik, sonra da Tobit)?
pscl::hurdle
düşünüyorum, ancak burada Denklem 5'te de aynı görünüyor: cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf Veya belki ben hala benim için tıklayın yapacak basit bir şey eksik?
hurdle()
. Eşleştirilmiş / skeçimizde, daha genel yapı taşlarına vurgu yapmaya çalışıyoruz.