Makine öğrenimi modelleri (GBM, NN vb.) Hayatta kalma analizi için nasıl kullanılabilir?


13

Ben Cox Orantılı Tehlike regresyon & bazı Kaplan-Meier modelleri gibi bu geleneksel istatistiksel modeller bir olay diyelim başarısızlık sonraki geçtiği kadar gün tahmin etmek için kullanılabilir biliyorum vs. yani Survival analizi

Sorular

  1. GBM, Yapay sinir ağları vb. Makine öğrenimi modellerinin regresyon versiyonu bir olayın gerçekleşmesine kadar geçen günleri tahmin etmek için nasıl kullanılabilir?
  2. Ben sadece hedef değişken olarak ortaya çıkana kadar gün kullanmanın ve bir regresyon modeli çalıştırmak basitleştirmek işe yaramaz inanıyorum? Neden işe yaramaz ve nasıl düzeltilebilir?
  3. Hayatta kalma analizi problemini bir sınıflandırmaya dönüştürebilir ve sonra hayatta kalma olasılıkları elde edebilir miyiz? Eğer öyleyse ikili hedef değişkeni nasıl oluşturulur?
  4. Cox Orantılı Tehlikeler regresyonu ve Kaplan-Meier modelleri vs vs makine öğrenme yaklaşımının artıları ve eksileri nedir?

Örnek girdi verilerinin aşağıdaki formatta olduğunu düşünün

resim açıklamasını buraya girin

Not:

  • Sensör, verileri 10 dakikalık aralıklarla pingler, ancak NA ile satırda gösterildiği gibi ağ sorunu vb. Nedeniyle veriler eksik olabilir.
  • var1, var2, var3, yordayıcılar, açıklayıcı değişkenlerdir.
  • fail_flag, makinenin başarısız olup olmadığını söyler.
  • Makine kimliklerinin her biri için her 10 dakikada bir son 6 aylık verilerimiz var

DÜZENLE:

Beklenen çıktı tahmini aşağıdaki biçimde olmalıdır resim açıklamasını buraya girin

Not: Önümüzdeki 30 gün boyunca makinelerin her biri için günlük seviyede arıza olasılığını tahmin etmek istiyorum.


1
Bunun neden olay zamanı verisi olduğunu açıklarsanız yardımcı olacağını düşünüyorum ; tam olarak modellemek istediğiniz yanıt nedir?
Cliff AB

Bunu netleştirmek için beklenen çıktı tahmin tablosunu düzenledim ve ekledim. Başka sorunuz varsa bize bildirin.
GeorgeOfTheRF

1
Bazı durumlarda hayatta kalma verilerini ikili sonuçlara dönüştürmenin yolları vardır, örn. Ayrık zamanlı tehlike modelleri: statistichorizons.com/wp-content/uploads/Allison.SM82.pdf . Rastgele ormanlar gibi bazı makine öğrenme yöntemleri, örneğin ayırma kriteri olarak günlük sırası istatistiği kullanılarak olay verisine zaman modellenebilir.
dsaxton

@dsaxton Teşekkürler. Yukarıdaki sağkalım verilerinin ikili sonuçlara nasıl dönüştürüleceğini açıklayabilir misiniz?
GeorgeOfTheRF

Yakından baktıktan sonra zaten ile ikili sonuçlarınız var gibi görünüyor failure_flag.
dsaxton

Yanıtlar:



2

Şu referanslara bir göz atın:

https://www.stats.ox.ac.uk/pub/bdr/NNSM.pdf

http://pcwww.liv.ac.uk/~afgt/eleuteri_lyon07.pdf

Ayrıca, Cox Orantılı Tehlikeler (CPH) gibi geleneksel tehlikelere dayalı modellerin, olay zamanını tahmin etmek için tasarlanmadığını, aksine değişkenlerin i) olayların gözlemlerini ve dolayısıyla ii) bir hayatta kalma eğrisi üzerindeki etkilerini (korelasyon) çıkarmak için tasarlandığını unutmayın. . Neden? CPH'nin MLE'sine bakın.

Bu nedenle, "ortaya çıkma günleri" gibi bir şeyi daha doğrudan tahmin etmek istiyorsanız, CPH tavsiye edilmeyebilir; diğer modeller, yukarıdaki iki referansta belirtildiği gibi görevinize daha iyi hizmet edebilir.


1

@ Dsaxton'un dediği gibi, ayrık bir zaman modeli oluşturabilirsiniz. Bunu p'yi tahmin etmek için ayarladınız (önceki güne kadar hayatta kalan bu gün başarısız). Girdileriniz geçerli gündür (istediğiniz herhangi bir gösterimde) örn. Bir etkin kodlama, tamsayı, .. Spline ... ve istediğiniz diğer bağımsız değişkenler

Böylece, t-1 zamanına kadar hayatta kalan her bir örnek için veri satırları oluşturursunuz, bu, t zamanında (0/1) ölmüştür.

Şimdi T zamanına kadar hayatta kalma olasılığı p = (t zamanında verilen ölme t-1'de ölmedi) t = 1 ila T için bir üründür. Yani modelinizden T tahminleri yaparsınız ve sonra birlikte çarpın.

Başarısızlık zamanını doğrudan tahmin etmenin böyle bir fikrin olmamasının sebebinin sorunun gizli yapısından kaynaklandığını söyleyebilirim. Örneğin, başarısız olmayan makineler için ne girersiniz? Altta yatan yapı etkin bir şekilde bağımsız olaylardır: verilen zamandaki başarısızlık t-1'e kadar başarısız olmadı. Yani, örneğin sabit olduğunu varsayarsanız, hayatta kalma eğriniz üssel olur (tehlike modellerine bakın)

10 dakikalık aralıklarla modelleme yapabileceğinizi veya sınıflandırma problemini gündüz düzeyine kadar toplayabileceğinizi unutmayın.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.