Lojistik regresyon eğitiminde “kısmi kredi” (sürekli sonuç) vermek hiç iyi bir fikir mi?


10

Hangi koşucuların zorlu bir dayanıklılık yarışını bitireceğini tahmin etmek için lojistik bir regresyon eğitimi alıyorum.

Çok az koşucu bu yarışı tamamlıyor, bu yüzden ciddi sınıf dengesizliği ve küçük bir başarı örneği var (belki birkaç düzine). Neredeyse bunu yapan düzinelerce koşucudan iyi bir "sinyal" alabileceğimi hissediyorum . (Eğitim verilerim sadece tamamlanmakla kalmayıp, bitirmemiş olanların gerçekte ne kadar ilerlediklerini de ortaya koydu.) Bu yüzden bunun korkunç bir fikir olup olmadığını ve bazı "kısmi kredi" eklemeyi merak ediyorum. Çeşitli parametreler verilebilen kısmi kredi, rampa ve lojistik eğrisi için birkaç işlev buldum.

resim açıklamasını buraya girin

Regresyondaki tek fark, eğitim verilerini ikili sonuç yerine değiştirilmiş, sürekli sonucu tahmin etmek için kullanmamdır . Bir test setindeki tahminlerini karşılaştırırken (ikili yanıtı kullanarak) Oldukça sonuçsuz sonuçlar elde ettim - lojistik kısmi kredi, R-kare, AUC, P / R'yi marjinal olarak geliştirdi, ancak bu, küçük örnek.

Tahminlerin tamamlanmaya doğru düzgün bir şekilde önyargılı olması umurumda değil - umursadığım şey, yarışmacıları bitirme olasılıklarına göre doğru bir şekilde sıralamak , hatta belki de nispeten bitirme olasılıklarını tahmin etmektir .

Lojistik regresyonun yordayıcılar ve olasılık oranının günlüğü arasında doğrusal bir ilişki olduğunu varsayıyorum ve sonuçlarla uğraşmaya başlarsam bu oranın gerçek bir yorumu yoktur. Bunun teorik bir bakış açısından akıllı olmadığından eminim, ancak ek sinyal almanıza ve aşırı takılmayı önlemeye yardımcı olabilir. (Neredeyse başarı kadar tahmin edicim var, bu yüzden kısmi tamamlama ile ilişkileri tam tamamlama ile ilişkileri kontrol etmek için kullanmak yararlı olabilir).

Bu yaklaşım daha önce sorumlu uygulamada kullanılıyor mu?

Her iki durumda da, bu tür analizler için daha uygun olabilecek başka modeller de var mı (belki tehlike hızını zaman yerine mesafeye uygulayan bir şey)?

Yanıtlar:


11

Bu, Cox orantılı tehlike analizi veya muhtemelen bazı parametrik hayatta kalma modeli gibi hayatta kalma analizi için bir iş gibi görünüyor.

Bu sorunu açıkladığınız terimin tersini düşünün: bırakma konusunda daha erken mesafelerle ilişkili öngörücü değişkenler nelerdir?

Olayı bırakmak. Kapsanan mesafe, standart sağkalım analizinde olay zamanı ile eşdeğer kabul edilebilir. Daha sonra, ayrılan kişi sayısına eşit sayıda etkinliğiniz olur, bu nedenle sınırlı sayıda öngörücüyle ilgili sorununuz azalacaktır. Bırakanlar bilgi verir.

Bir Cox modeli, eğer verileriniz üzerinde çalışıyorsa, yarışmacıları tahmini bırakma mesafelerine göre sıralayarak tüm öngörücü değişken değerlerine dayanan doğrusal bir öngörücü sağlayacaktır.


Bunun için teşekkürler. Cox modelini kullanarak, bırakma için en uzun tahmini mesafeye sahip koşucuların da orantılı tehlike yapısı nedeniyle bitirme mesafesinden önce bırakma olasılıklarının en az olduğunu söylediğiniz anlaşılıyor. Bu doğru mu? Ayrıca, bunu tavsiye ettiğiniz için, kısmi kredi fikrini tahmin etmek size iyi kurulmuş değil mi?
C8H10N4O2

Bu aslında doğru. Bırakma mesafesinin bir hayatta kalma modeline dahil edilmesini, iyi kurulmuş bir teorik ve pratik gerekçeye sahip bir şekilde "kısmi kredi" vermenin bir yolu olarak görüyorum. Detaylar üzerinde çalışmadım, ancak bunun grafiğinizde ifade edildiği gibi tam olarak istediğinizi gerçekleştirdiğinden şüpheleniyorum.
EdM
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.