Neden burada bir gamma dağılımı seçtiler?


14

Kursum için yapılan egzersizlerden birinde Kaggle tıbbi veri seti kullanıyoruz .

Alıştırma şöyle diyor:

münferit ücretlerin dağılımını modellemek istiyoruz ve ayrıca bu dağıtım hakkındaki belirsizliğimizi yakalamak istiyoruz, böylece görebildiğimiz değer aralığını daha iyi yakalayabiliyoruz. Verileri yükleme ve ilk görünümü gerçekleştirme:

arsa

Yukarıdakilerden, burada oyunda bir tür üstel benzeri dağılımın olduğundan şüphelenebiliriz. ... Sigorta tazminat talepleri muhtemelen çok modlu olabilir. Gama dağılımı uygulanabilir olabilir ve bunu öncelikle sigorta talebi olmayan ücretlerin dağılımı için test edebiliriz.

Ben baktım "Gamma dağılımı" ve "kodlayan zaman«alfa»için«beta»ortalama varış süresi ile Poisson sürecine oluşmaya olayları gerektirdiğini sürekli pozitif okunur, tek-modlu dağılım" bulundu

Burada zaman yok, sadece sigortalı olsun ya da olmasın alakasız suçlamalar.

Neden bir gama dağılımı seçtiler?

Yanıtlar:


27

Verilerin koşullu dağılımı (yani her bir grubun dağılımı veya her bir öngörücü değişken kombinasyonu için beklenen dağılım) için basit parametrik modeller düşünürken ve pozitif sürekli bir dağılımla uğraşıyorsanız , iki yaygın seçenek Gama'dır. ve log-Normal . Bu dağılımlar, hesaplama alanının uygunluğunu (sıfırdan büyük gerçek sayılar) karşılamanın yanı sıra, hesaplama açısından da uygundur ve genellikle mekanik anlamlıdır.

  • Log-normal dağılımı kolay bir normal dağılım exponentiating ile elde edilmektedir (ya da tersine, log-transforme log-normal sapma normal sapma verir). Mekanik bir bakış açısından, her bir gözlem çok sayıda iid rasgele değişkenin ürününü yansıttığında log-Normal, Merkezi Limit Teoremi aracılığıyla ortaya çıkar . Verileri günlüğe dönüştürdüğünüzde, çok çeşitli hesaplama ve analitik araçlara erişebilirsiniz (örn. Normallik varsayımı veya en küçük kareler yöntemlerini kullanma).
  • Sorunuzun belirttiği gibi, bir Gama dağılımının ortaya çıkmasının bir yolu, sabit bir bekleme süresi olan bağımsız olaya kadar bekleme sürelerinin dağılımıdır . Sigorta iddialarının mekanik bir Gamma dağıtım modeli için bir referans bulamıyorum , ancak aynı zamanda bir Gamma dağılımını fenomenolojik (yani veri açıklaması / hesaplama kolaylığı) açısından kullanmak da mantıklı . Gama dağılımı parçasıdır üstel ailesi (Normal ancak içerir değil , araç log-normal) Bunun makine her genelleştirilmiş doğrusal modellernλgecerli; ayrıca analiz için özellikle uygun bir biçime sahiptir.

Birinin birini veya diğerini seçmesinin başka nedenleri de vardır - örneğin, aşırı olayların sıklığını tahmin etmede önemli olabilecek dağıtım kuyruğunun "ağırlığı" . Çok sayıda başka pozitif, sürekli dağılım vardır (örneğin , bu listeye bakın ), ancak daha özel uygulamalarda kullanılma eğilimindedirler.

Bu dağılımların çok azı, yukarıdaki marjinal dağılımlarda gördüğünüz çoklu-modaliteyi yakalayacaktır, ancak çoklu-modalite, gözlemlenen kategorik öngörücüler tarafından açıklanan kategoriler halinde gruplanan verilerle açıklanabilir. Multimodaliteyi açıklayan gözlemlenebilir bir öngörücü yoksa, (küçük, ayrık) sayıda pozitif sürekli dağılımın bir karışımına dayanan sonlu bir karışım modeline uymak seçilebilir .


1
Ayrıca gama ve lognormal modellerin neredeyse her zaman çok benzer sonuçlar verdiğini belirtmek gerekir
carlo

2
Sağlık hizmetleri araştırmalarında çalışıyorum. Genel olarak, bir gama veya lognormal dağılımın, sağlık hizmeti harcamaları veya talep miktarları için uygun bir seçim olacağını doğrulayabilirim. Gama dağıtımı zaman içinde olay modellerine kullanılabilir, ancak bunlar burada geçerli değildir.
Weiwen Ng

Teşekkürler!! Bu çok yardımcı oldu.
Vicki B
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.