Sıfır şişirilmiş dağılımlar, bunlar gerçekten nedir?


15

Sıfır şişirilmiş dağılımları anlamak için uğraşıyorum. Onlar neler? Amaç ne?

Eğer çok sıfırlı verilerim varsa, o zaman önce sıfır olasılığını hesaplamak için bir lojistik gerileme sığdırabilirim ve sonra tüm sıfırları kaldırabilirim ve sonra dağıtım seçimimi kullanarak düzenli bir gerileme sığdırabilirim (örneğin poisson).

Sonra birisi bana "hey, sıfır şişirilmiş dağıtım kullan" dedi, ama baktığımda, yukarıda önerdiğimden farklı bir şey yapmıyor gibi görünüyor mu? Düzenli bir parametresine ve sıfır olasılığını modellemek için başka bir parametresine sahiptir . Her iki şeyi de aynı anda yapıyor mu?μp


3
Neden tüm sıfırları kaldırıyorsunuz? birlikte yapabilirsiniz, önce 0 ve 1 olasılığını hesaplarsınız ve bunu Sıfır olarak şişirilmiş model (dağıtım) olan Poisson dağılımınıza ağırlık olarak kullanırsınız. Bunu okuyun, oldukça açıktır. En.wikipedia.org/wiki/Zero-inflated_model
Deep North

Yanıtlar:


13

lojistik regresyona uymak ilk önce sıfır olasılığını hesaplar ve sonra tüm sıfırları kaldırabilirim ve sonra dağıtım seçimimi kullanarak düzenli bir regresyona sığabilirim (örneğin poisson)

Kesinlikle haklısın. Bu sıfır şişirilmiş bir modele uymanın bir yoludur (veya Achim Zeileis'in yorumlarda belirttiği gibi, bu kesinlikle sıfır şişirilmiş bir modelin özel bir durumu olarak görebileceği bir "engel modeli" dir).

Açıkladığınız prosedür ile "hepsi bir arada" sıfır şişirilmiş model arasındaki fark hata yayılımıdır. İstatistiklerdeki diğer tüm iki adımlı prosedürler gibi, 2. adımdaki tahminlerinizin genel belirsizliği, tahminin 0 olması gerekip gerekmediğine ilişkin belirsizliği dikkate almaz.

Bazen bu gerekli bir kötülüktür. Neyse ki, bu durumda gerekli değildir. R de, pscl::hurdle()veya kullanabilirsiniz fitdistrplus::fitdist().


bunu "2. adımdaki tahminlerinizin genel belirsizliğinin, tahminin 0 olması gerekip gerekmediğine ilişkin belirsizliği dikkate almayacağını" açıklayabilir misiniz? Bir Zip Poisson yaptığınızda birden çok Poisson modelinin olabilirlik fonksiyonuna ilk bölümünün olasılık, bu nedenle 2 dikkate 0 veya 1 belirsizliğini alacak adım olacak
Derin Kuzey

1
@DeepNorth, "0 veya 1'in belirsizliği" ile gibi bir şey ifade ediyorsa , bu ifadenin kendisi bir tahmindir. Bir tahmin olarak, çevresinde bir dereceye kadar belirsizlik vardır. Makul değerlerin aralığı nedir? doğru olduğundan ne kadar eminiz ? Bu, iki adımlı basit bir prosedürde yayılmayan belirsizliktir. 0,51P(Y=1|X=x)=0.510.51
shadowtalker

3
@ssdecontrol Genellikle buna sıfır şişirilmiş model değil, engel modeli (ör pscl::hurdle().) denir . Ve uygun bir uyum sağlamak için sıfırlar olmadan veriler için kullanılan dağılım sıfır kesilmeli (veya ilk etapta sıfırlara yol açmamalıdır). Daha fazla ayrıntı için cevabıma bakın.
Achim Zeileis

9

Açıkladığınız temel fikir geçerli bir yaklaşımdır ve buna sıfır şişirilmiş bir modelden ziyade genellikle bir engel modeli (veya iki parçalı model) denir .

Bununla birlikte, sıfır olmayan veri modelinin sıfırların kaldırılmasını sağlaması çok önemlidir. Poisson modelini sıfırsız verilere sığdırırsanız, Poisson dağılımı her zaman sıfır için pozitif bir olasılığa sahip olduğu için bu kesinlikle kesinlikle zayıf bir uyum sağlayacaktır. Doğal alternatif, sayım verileri için regresyonu engellemeye klasik yaklaşım olan sıfır kesik Poisson dağılımını kullanmaktır.

Sıfır şişirilmiş modeller ile engelli modeller arasındaki temel fark, olasılığın regresyonun ikili kısmında modellenmesidir. Engelli modeller için, sıfıra karşı sıfır olmayan olasılıktır. Sıfır şişirilmiş modellerde, aşırı bir sıfırın olması olasılığı, yani şişirilmemiş dağılımın neden olmadığı bir sıfırın olasılığıdır (örn. Poisson).

R'deki verileri saymak için hem engel hem de sıfır şişirme modellerinin tartışması için JSS'de yayınlanan ve psclpakete bir skeç olarak gönderilen makalemize bakın : http://dx.doi.org/10.18637/jss.v027.i08


7

Ssdecontrol'ün söyledikleri çok doğru. Ama tartışmaya birkaç sent eklemek istiyorum.

YouTube'da Richard McElreath tarafından veri sayımı için Sıfır Şişirilmiş modellerle ilgili dersi yeni izledim .

Saf Poisson modelinin oranını açıklayan değişkenleri kontrol ederken p'yi tahmin etmek mantıklıdır, özellikle gözlenen bir sıfırın Poisson dağılımından kaynaklanma olasılığının% 100 olmadığını düşünürseniz.

Çok seviyeli bir model olarak sıfır şişirilmiş dağılımlar

Modelin parametrelerini düşündüğünüzde de mantıklıdır, çünkü tahmin etmek için iki değişken, p ve Poisson modelinin oranı ve iki denklem ile sonuçlanırsınız, sayının sıfır olduğu ve sayının farklı olduğu durum sıfır.

Görüntü kaynağı: İstatistiksel Yeniden Düşünme - Richard McElreath tarafından R ve Stan'da Örneklerle Bir Bayes Kursu

Düzenle : yazım hatası


Öğrenme materyallerine yapılan referanslar takdir edilmektedir ... ama bu eldeki soruya nasıl cevap veriyor? Bu, bir yanıt olarak yayınlanan bir yorum gibi görünüyor ...
RTbecard
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.