Negatif olmayan veriler için sıfırlar halinde toplanan bir model (Tweedie GLM, sıfır şişirilmiş GLM, vb.) Kesin sıfırları tahmin edebilir mi?


15

Bir Tweedie dağılımı, parametresi (ortalama-varyans ilişkisindeki üs) 1 ile 2 arasında olduğunda, çarpık bir nokta kütlesine sahip eğri verileri modelleyebilir .p

Benzer şekilde sıfır şişirilmiş (aksi halde sürekli veya ayrık olsun) bir model çok sayıda sıfır içerebilir.

Neden bu tür modellerle tahmin yaptığımda veya takılan değerleri hesapladığımda, tahmin edilen tüm değerlerin sıfır olmadığıdır.

Bu modeller gerçekte sıfırları tahmin edebilir mi?

Örneğin

library(tweedie)
library(statmod)
# generate data
y <- rtweedie( 100, xi=1.3, mu=1, phi=1)  # xi=p
x <- y+rnorm( length(y), 0, 0.2)
# estimate p
out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9))
# fit glm
fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0))
# predict
pred <- predict.glm(fit, newdata=data.frame(x=x), type="response")

predartık sıfır içermiyor. Tweedie dağılımı gibi modellerin yararlılığının, sıfırları ve sürekli kısmı tahmin etme yeteneğinden geldiğini düşündüm.

Örneğimde değişkenin xçok öngörücü olmadığını biliyorum .


Ayrıca için keyfi dağılımlara izin veren yarı parametrik sıralı tepki modellerini de göz önünde bulundurun . Y
Frank Harrell

Yanıtlar:


16

Bir GLM'de öngörülen değerin bir ortalama olduğunu unutmayın.

İçin herhangi bir negatif olmayan değerlerine dağılımı, bir tahmin etmek için ortalama 0, dağıtım 0 ° C'de tamamen sivri olması gerekir.

Bununla birlikte, bir log-link ile asla tam olarak sıfır ortalamaya uymayacaksınız (çünkü - ∞'a gitmeyi gerektirecektir ).η

Yani probleminiz Tweedie ile ilgili bir sorun değil, ama çok daha genel; örneğin Poisson (sıfır şişirilmiş veya sıradan Poisson GLM) ile aynı sorunu yaşarsınız.

Tweedie dağılımının yararlılığının, sıfırları ve sürekli kısmı tahmin etme yeteneğinden geldiğini düşündüm.

Bir log-link ile negatif olmayan değerler üzerinde herhangi bir dağılım için kesin sıfır tahminleri gerçekleşmeyeceğinden, bu konudaki düşünceniz yanlış olmalıdır.

İlgi çekici noktalarından biri , ortalama tahminlerin 0 olacağı değil, verilerdeki tam sıfırları modelleyebilmesidir. [Tabii ki, sıfır olmayan ortalama ile donatılmış bir dağılımın, ortalama 0'ı aşması gerekmesine rağmen, hala tam olarak sıfır olma olasılığı olabilir. Uygun bir tahmin aralığı örneğin 0 içerebilir.]

Takılan dağılımın, takılan ortalamaları sıfırlamayan önemli miktarda sıfır içermesi hiç önemli değildir.

Bağlantı işlevinizi bir kimlik bağlantısı söyleyecek şekilde değiştirirseniz, sorununuzu gerçekten çözmez - sıfır olmayan bir negatif değişkenin ortalaması pozitif olacaktır.


1
açıklaman için teşekkürler. Bir tweedie glm'yi bir gama glm ile karşılaştırdım ve veriler kaç sıfır olursa olsun betalar neredeyse tamamen aynıdır (sıfırları gamma glm için çok küçük bir değere değiştirdim). Ve sıfırları ve sürekli parçayı aynı anda tahmin etmenin önerilen yolu nedir.
spore234

2
@ spore234 0/1'i tahmin etmek için bir binom engeline ve sıfır olmayan verilere takılan bir gama modeline sahip olan kendi gama engel modelinizi yuvarlayabilirsiniz. İşte bu modeli ve R'de elle nasıl sığdırılacağını açıklayan bir blog yazısı bağlantısı . Bir kenara, Bir şey sürekli ise, bunun tam olarak sıfır olduğunu nasıl bilebilirsiniz? Ölçüm aparatınız böyle ince taneli ölçümlere sahip mi?
Monica'yı eski

2
@spore, "Sıfırları tahmin et" ile gerçekten ne demek istediğin konusunda daha açık olmalısın; cevabım , Tweedie'nin yerini almak için kullanılan başka bir dağıtım modelinin neden ortalama sıfır tahmini vermeyeceğini zaten belirledi (NB sıfır şişirilmiş ve engelli modeller de ortalama tahminleriyle aynı sorunu yaşıyor). Ortalama bir tahmin verildiğinde, bir GLM kullandığınızda "tahmin" ile kastettiğiniz şeydir, şimdi ne demek istersiniz? Eğer 0 şişirilmiş veya engelli bir modelin mantıklı olduğu bir şey anlamına gelirse, bir Tweedie aynı koşulu iyi karşılayabilir.
Glen_b

1
Bu gerçekten "öngörmek" ile ne demek istediğinize bağlıdır ("demek" demek demek istemediğiniz için ne demek istediğinizi söylemek gerekir - sıfır olasılığını tahmin etmek ister misiniz? medyan tahmin? Başka bir şey?) ve ne tür şeyleri "daha iyi" olarak kabul edersiniz, böylece bazı karşılaştırma yapılabilir.
Glen_b

1
@ spore234 Sorun yine, "tahmin" kelimesini kullanmak ama "tahmin" ile ne demek istediğinizi tanımlamak için başarısız (sormaya devam!). Eğer ne olduğunu söylemek gerekir, böylece bu durumda terimin en bariz yorumların her iki dışladı görünmektedir yapmak demek. "Bu kişinin maliyetinin ne kadar olacağını tahmin et" derken, aslında ne demek istiyorsun? Her kişi için tam maliyet elde edemeyeceğinizi unutmayın ... peki bu "tahminin" hangi özellikleri olmalıdır?
Glen_b

10

Sıfırların oranını tahmin etme

Ben statmod paketinin yazarı ve tweedie paketinin ortak yazarıyım. Örneğinizdeki her şey düzgün çalışıyor. Kod, verilerde olabilecek sıfırları doğru olarak muhasebeleştirir.

Glen_b ve Tim'in açıkladığı gibi, sıfır olasılığı% 100 olmadığı sürece, tahmini ortalama değer asla tam olarak sıfır olmayacaktır. İlginç olan, sıfırların tahmini oranıdır ve bu, aşağıda gösterdiğim gibi model uyumundan kolayca çıkarılabilir.

İşte daha mantıklı bir çalışma örneği. İlk önce bazı verileri simüle edin:

> library(statmod)
> library(tweedie)
> x <- 1:100
> mutrue <- exp(-1+x/25)
> summary(mutrue)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.3829  1.0306  2.7737  5.0287  7.4644 20.0855 
> y <- rtweedie(100, mu=mutrue, phi=1, power=1.3)
> summary(y)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.8482  2.9249  4.7164  6.1522 24.3897 
> sum(y==0)
[1] 12

Veriler 12 sıfır içerir.

Şimdi bir Tweedie glm takın:

> fit <- glm(y ~ x, family=tweedie(var.power=1.3, link.power=0))
> summary(fit)

Call:
glm(formula = y ~ x, family = tweedie(var.power = 1.3, link.power = 0))

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-2.71253  -0.94685  -0.07556   0.69089   1.84013  

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.816784   0.168764   -4.84 4.84e-06 ***
x            0.036748   0.002275   16.15  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for Tweedie family taken to be 0.8578628)

    Null deviance: 363.26  on 99  degrees of freedom
Residual deviance: 103.70  on 98  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 4

xϕ

x

> Phi <- 0.85786
> Mu <- fitted(fit)
> Power <- 1.3
> Prob.Zero <- exp(-Mu^(2-Power) / Phi / (2-Power))
> Prob.Zero[1:5]
        1         2         3         4         5 
0.3811336 0.3716732 0.3622103 0.3527512 0.3433024 
> Prob.Zero[96:100]
          96           97           98           99          100 
1.498569e-05 1.121936e-05 8.336499e-06 6.146648e-06 4.496188e-06 

Dolayısıyla sıfırların tahmini oranı, en küçük ortalama değerlerde% 38,1'den en büyük ortalama değerlerde 4,5e-6'ya kadar değişir.

Tam sıfır olasılığının formülü, Dunn & Smyth (2001) Tweedie Ailesi Yoğunlukları: Değerlendirme Yöntemleri veya Dunn & Smyth (2005) Serisi Tweedie üstel dağılım modeli yoğunluklarının değerlendirilmesinde bulunabilir .


teşekkürler, yararlı! Kesin sıfır olasılıkları için güven aralığının nasıl hesaplanacağına dair herhangi bir öneriniz var mı? Hiç bir anlam ifade eder mi? Ayrıca 2005 makalenizdeki "% 95 olasılık bölgesi" nin nasıl tanımlanacağına da şaşırıyorum, muhtemelen bulamayacağım bilinen bir şey. Büyük bir referans takdir ediyorum
irintch3

8

Bu cevap, sıfır şişirilmiş regresyon modelinin tahminlerini soran başka bir diziden birleştirildi, ancak aynı zamanda Tweedie GLM modeli için de geçerlidir.

ff

fzeroinfl(y)=πI{0}(y)+(1π)f(y)

Ifzeroinfl(y)

μi=π0+(1π)g1(xiβ)

g1

YXYXYXE(Y|X)

Misal


Tim, bu gerçekten harika bir cevap ve yakın ve birleştirme zamanlaması için özür dilerim. Daha kanonik hale getirmek veya daha iyi uyum sağlamak için soru hakkında daha fazla değişiklik yapmak istiyorsanız (belki de cevapladığınız soruları dahil edin), lütfen devam edin, yoksa sizin için yapmaktan memnuniyet duyarım.
Glen_b -Manica Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.