Sürekli veri sıfırda biriken GLM


11

TB, AIDS vb. Gibi yıkıcı hastalıkların hastaneye yatış harcamalarını ne kadar iyi etkilediğini tahmin etmek için bir model çalıştırmaya çalışıyorum. Neredeyse hepsi cinsiyet, hanehalkı durumu başkanı, yoksulluk durumu ve tabii ki hastalığınız olup olmadığı için bir kukla olan bağımsız değişkenler olarak bağımlı değişken olarak "hastaneye yatış maliyetine" ve çeşitli bireysel belirteçlere sahibim. ve yaş kare) ve bir grup etkileşim terimi.

Bekleneceği gibi, önemli miktarda - ve yani çok fazla - sıfırda yığılmış veri vardır (yani, 12 aylık referans döneminde hastaneye yatış masrafı yoktur). Bu gibi verilerle başa çıkmanın en iyi yolu nedir?

Şu andan itibaren maliyeti ln(1+cost)tüm gözlemleri içerecek şekilde dönüştürmeye ve sonra doğrusal bir model çalıştırmaya karar verdim . Ben doğru yolda mıyım?


1
Cevabınız gerçekten önemli mi? Aradığınız terim sıfır enflasyon .
gung - Monica'yı eski

2
Sıfır şişirilmiş sürekli dağılımlar da olabilir; örneğin sıfır şişirilmiş gama modelleri vardır.
Glen_b

1
@ Glen_b, aklımda olan buydu. Yine de hiç yapmadım. Frank Harrell'in OLR önerisi, problemi çözmek için de akıllıca bir yoldur.
gung - Monica'yı eski

Yanıtlar:


8

Sahanın başka bir yerinde tartışıldığı gibi, ordinal regresyon (örneğin orantılı olasılıklar, orantılı tehlikeler, probit) esnek ve sağlam bir yaklaşımdır. Aşırı topaklanma dahil olmak üzere dağılımında süreksizliklere izin verilir . Tek bir için dağılımı hakkında hiçbir şey varsayılmamaktadır . Sıfır şişirilmiş modeller, yarı parametrik modellerden çok daha fazla varsayım yapar. Tam bir örnek olay incelemesi için http://biostat.mc.vanderbilt.edu/CourseBios330 adresindeki kurs bölümlerimin 15. bölümüne bakınız .YYX

Sürekli için sıralı modellerin büyük bir avantajı , analizden önce nasıl dönüştüreceğinizi bilmenize gerek olmamasıdır .YY


8

0'da kümelenmeye "sıfır enflasyon" denir. Şimdiye kadar en yaygın vakalar sıfır şişirilmiş Poisson ve sıfır şişirilmiş negatif binomiyal regresyona yol açan sayım modelleridir. Bununla birlikte, sıfır enflasyonu gerçek pozitif değerlerle modellemenin yolları vardır (örn. Sıfır şişirilmiş gama modeli).

Bu yöntemlerin gözden geçirilmesi için Min ve Agresti, 2002, Negatif olmayan verileri sıfıra toplayarak modelleme konusuna bakın .


1

Sıfır şişirilmiş Poisson modelinin kullanılması önerisi ilginç bir başlangıçtır. Hastalıkla ilgili herhangi bir maliyete sahip olma olasılığının yanı sıra herhangi bir hastalığınız varsa bu maliyetlerin ne olduğu sürecini birlikte modellemenin bazı faydaları vardır . Herhangi bir maliyet tahakkuk ettirilmesine bağlı olarak (örneğin, belirli bir ortalama-varyans ilişkisi ve pozitif bir tamsayı sonucu ... modelleme amaçları).

Hastalıkla ilgili kabul ve hastalık ile ilgili masrafları kabul süreçlerine bağlı olarak tedavi etmekte sorun yaşıyorsanız, öncelikle hastalık ile ilgili herhangi bir maliyet tahakkuk etmiş mi? Bu basit bir lojistik regresyon modelidir ve risk faktörlerini ve yaygınlığını değerlendirmenizi sağlar. Bununla birlikte, bir analizi herhangi bir maliyet tahakkuk eden bireylerin alt kümesiyle sınırlandırabilir ve bir dizi modelleme tekniği kullanarak gerçek maliyet sürecini modelleyebilirsiniz. Poisson iyidir, yarı-poisson daha iyi olurdu (verilerdeki ölçülmemiş küçük eşdeğer kaynakların ve model varsayımlarından ayrılmaların hesaplanması). Ama gökyüzü sürekli maliyet sürecini modellemenin sınırıdır.

İşlemdeki parametrelerin korelasyonunu kesinlikle modellemeniz gerekiyorsa, bootstrap SE tahminlerini kullanabilirsiniz. Bunun geçersiz olması için bir neden göremiyorum, ancak bu yanlış olursa başkalarının girdilerini duymak merak ediyor. Genel olarak, bunların iki ayrı soru olduğunu ve geçerli bir çıkarımda bulunacak şekilde ele alınması gerektiğini düşünüyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.