Hangi koşucuların zorlu bir dayanıklılık yarışını bitireceğini tahmin etmek için lojistik bir regresyon eğitimi alıyorum.
Çok az koşucu bu yarışı tamamlıyor, bu yüzden ciddi sınıf dengesizliği ve küçük bir başarı örneği var (belki birkaç düzine). Neredeyse bunu yapan düzinelerce koşucudan iyi bir "sinyal" alabileceğimi hissediyorum . (Eğitim verilerim sadece tamamlanmakla kalmayıp, bitirmemiş olanların gerçekte ne kadar ilerlediklerini de ortaya koydu.) Bu yüzden bunun korkunç bir fikir olup olmadığını ve bazı "kısmi kredi" eklemeyi merak ediyorum. Çeşitli parametreler verilebilen kısmi kredi, rampa ve lojistik eğrisi için birkaç işlev buldum.
Regresyondaki tek fark, eğitim verilerini ikili sonuç yerine değiştirilmiş, sürekli sonucu tahmin etmek için kullanmamdır . Bir test setindeki tahminlerini karşılaştırırken (ikili yanıtı kullanarak) Oldukça sonuçsuz sonuçlar elde ettim - lojistik kısmi kredi, R-kare, AUC, P / R'yi marjinal olarak geliştirdi, ancak bu, küçük örnek.
Tahminlerin tamamlanmaya doğru düzgün bir şekilde önyargılı olması umurumda değil - umursadığım şey, yarışmacıları bitirme olasılıklarına göre doğru bir şekilde sıralamak , hatta belki de nispeten bitirme olasılıklarını tahmin etmektir .
Lojistik regresyonun yordayıcılar ve olasılık oranının günlüğü arasında doğrusal bir ilişki olduğunu varsayıyorum ve sonuçlarla uğraşmaya başlarsam bu oranın gerçek bir yorumu yoktur. Bunun teorik bir bakış açısından akıllı olmadığından eminim, ancak ek sinyal almanıza ve aşırı takılmayı önlemeye yardımcı olabilir. (Neredeyse başarı kadar tahmin edicim var, bu yüzden kısmi tamamlama ile ilişkileri tam tamamlama ile ilişkileri kontrol etmek için kullanmak yararlı olabilir).
Bu yaklaşım daha önce sorumlu uygulamada kullanılıyor mu?
Her iki durumda da, bu tür analizler için daha uygun olabilecek başka modeller de var mı (belki tehlike hızını zaman yerine mesafeye uygulayan bir şey)?