Veri kümelerimdeki her kayıt için aşağıdaki bilgilere sahibim
nerede özellikler, hedef olay meydana gelirse 1, aksi takdirde 0 olur ve gerçekleşen olayın zaman damgasıdır. Özellikle, hiçbir etkinlik yoksa veya izlemin sona erme zamanına ayarlanmışsa eksik olabilir.
Veri kümemdeki her bir kayıt için bir risk endeksi hesaplamak istiyorum.
Ben özellikleri kullanan bir sınıflandırma modeli için gitmeyi düşünüyordum sınıfı tahmin etmek . Ancak, önemli: eğer olay Yakında ortaya çıkma riski daha yüksek olmalıdır.
Bu yüzden bir hayatta kalma analizi bu probleme uygun olmalıdır. Tam tahminine ihtiyacım yok ancak yalnızca tek bir kayıt riskini temsil eden tek bir dizin.
Her kayıt için hesaplanabilecek ortalama sağkalım süresi hoş bir risk endeksi gibi görünüyor - risk ne kadar düşükse.
Sorum şu:
- Hayatta kalma analizi benim amacım için uygun mu?
- Modelimin performansını nasıl değerlendirebilirim?
Soru (2) hakkında: Harrell'i kullanmaya hevesliyim -dizin gibi, ancak hesaplamak için hangi tahmini sonucun kullanıldığından emin değilim. Harrell'in Regresyon Modelleme Stratejileri kitabından sayfa 247:
indeks [...] biri denek cevap verirken diğeri cevap vermeyecek şekilde olası tüm nesne çiftleri alınarak hesaplanır. Endeks, bu tip çiftlerin, cevap verenin cevap vermeyenlerden daha yüksek bir tahmin olasılığına sahip olduğu orandır.
Hayatta kalma analizi doğru bir seçim haline gelirse, zamanla değişen değişkenleri tanıtmak için bazı standart yöntemleri kullanmak kolay olmalı diye düşünüyorum. .