Eksik verileri olan bir hayatta kalma modelinin uygun olup olmadığını nasıl belirlerim?


9

Biraz basitleştirmek gerekirse, yaklaşık on yıl süren bir sistemdeki insanların giriş ve çıkış zamanlarını kaydeden yaklaşık bir milyon kaydım var. Her kaydın bir giriş zamanı vardır, ancak her kaydın bir çıkış zamanı yoktur. Sistemdeki ortalama süre ~ 1 yıldır.

Eksik çıkış süreleri iki nedenden kaynaklanır:

  1. Kişi, verinin alındığı sırada sistemden ayrılmamıştır.
  2. Kişinin çıkış süresi kaydedilmedi. Bu, kayıtların% 50'sinin

İlgilenilen sorular:

  1. İnsanlar sistemde daha az zaman harcıyor ve ne kadar az zaman harcıyorlar.
  2. Daha fazla çıkış süresi kaydediliyor ve kaç tane kaydediliyor?

Bunu, bir çıkışın kaydedilme olasılığının zamanla doğrusal olarak değiştiğini ve sistemdeki zamanın parametreleri zamanla doğrusal olarak değişen bir Weibull'a sahip olduğunu söyleyerek modelleyebiliriz. Daha sonra çeşitli parametreler için maksimum bir olasılık tahmini yapabilir ve sonuçları göz küresi yapabilir ve bunları makul olarak kabul edebiliriz. Weibull dağılımını seçtik çünkü yaşam ömrünü ölçmede kullanılıyor gibi görünüyor ve verilerin bir gama dağılımından daha iyi uydurulmasının aksine söylemek eğlenceli.

Bunun nasıl doğru bir şekilde yapılacağına dair bir ipucu almak için nereye bakmalıyım? Matematiksel olarak anlayışlıyız, ancak istatistiksel olarak çok anlayışlı değiliz.

Yanıtlar:


5

Verilerinizin Weibull olup olmadığını görmenin temel yolu , kümülatif tehlikelerin günlüğünü zaman günlüğüne göre çizmek ve düz bir çizginin uygun olup olmadığını görmektir. Kümülatif tehlike parametrik olmayan Nelson-Aalen tahmincisi kullanılarak bulunabilir. Verilerinizi ortak değişkenlerle sığdırırsanız ve bazı referanslar takip ederse, Weibull regresyonu için benzer grafiksel teşhisler vardır .

Klein & Moeschberger metin oldukça iyidir ve parametrik ve yarı parametrik modeller için model oluşturma / teşhis ile zemin çok (gerçi çoğunlukla ikincisi) kapsar. R'de çalışıyorsanız, Theneau'nun kitabı oldukça iyi ( hayatta kalma paketini yazdığına inanıyorum ). Çok fazla Cox PH ve ilgili modelleri kapsıyor, ancak inşa ettiğiniz gibi parametrik modellerin çok fazla kapsama alanına sahip olup olmadığını hatırlamıyorum.

BTW, bu, her biri daha küçük bir insan havuzu için bir giriş / çıkış veya tekrarlanan giriş / çıkış olaylarına sahip bir milyon konu mu? Sansür mekanizmasını hesaba katma olasılığınızı mı ayarlıyorsunuz?


Teşekkürler, tam da aradığım şey buydu. Bu aslında her biri bir giriş ve çıkış süresine sahip bir milyon konudur. Evet, sansürü hesaba katmak için şartlandırıyoruz.
deinst

2

Tahmini modeli, sisteminizdeki tüm kişilerin çıkış zamanlarını tahmin etmek için kullanabilirsiniz. Daha sonra tahmini çıkış zamanlarını gerçek çıkış zamanlarıyla (bu verilere sahip olduğunuz yerde) karşılaştırabilir ve tahminlerinizin ne kadar iyi olduğunu değerlendirmek için RMSE gibi bir metrik hesaplayabilirsiniz ve bu da size model uyum hissi verir. Ayrıca bu bağlantıya bakın .


1
Bir millon noktası ve 8 parametreli bir model ile, ki kare gibi bir uyum iyiliği testi bana modelin doğru olma şansının olmadığını söyler. (Bu şaşırtıcı değildir, modelde olmayan gerçekliği etkileyen sonsuz faktörler vardır) RMSE bana modelin verilere ne kadar iyi uyduğuna dair bir fikir verir, ancak daha iyi bir model olup olmadığı konusunda bir fikir vermez
deinst

Daha iyi bir model olup olmadığını öğrenmek için, farklı formülasyonları deneyebilir veya verilerin model varsayımlarınızla tutarlı olup olmadığını görmek için çeşitli grafikler (örneğin, çıkış zamanlarına karşı zaman) kullanabilirsiniz. Ayrıca model iyileştirme fikirleri için rastgele gerçek zamana göre seçilen küçük bir örnek için tahmini çıkış zamanlarını da çizebilirsiniz.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.