Ben karmaşayı tahmin etmek için bir tahmin modeli oluşturmak ve bir kişi dönemi eğitim veri kümesine (olay için bir gösterge ile risk altında her müşteri ve ayrık dönem için bir satır) monte edilmiş ayrı bir zaman hayatta kalma modeli kullanmak için arıyorum - eşitleme 1 eğer o dönemde oluk meydana gelirse, başka 0).
- Modeli Singer ve Willet'in tekniğini kullanarak sıradan lojistik regresyon kullanarak takıyorum.
- Bir müşterinin karmaşası bir ay boyunca herhangi bir yerde olabilir, ancak yalnızca ayın sonunda bunu biliyoruz (yani, o ayın bir döneminde). 24 ay eğitim için kullanılıyor.
- Kullanılan zaman değişkeni numunenin başlangıç zamanıdır - 31.12.2008 tarihinden itibaren aktif olan tüm müşteriler - hepsi Ocak 2009'dan itibaren t = 0 alır (bunu yapmanın klasik yolu değil, ama inşa ederken inanıyorum) geleneksel istatistiksel modellere göre öngörücü bir model). Bir ortak değişken, müşterinin o zamandaki görev süresidir.
İnşa edilen bir dizi ortak değişken vardır - bazıları veri kümesinin satırlarında (belirli bir müşteri için) değişmeyen ve bazıları.
Bu zaman değişkeni eş değişkenleri sorun ve bana karmaşa tahmini için bir hayatta kalma modeli sorguluyor (mevcut anlık görüntü verilerine göre sonraki x aydaki karmaşayı tahmin eden düzenli bir sınıflandırıcıya kıyasla). Zamanla değişmeyenler bir ay önceki etkinliği tanımlar ve önemli tetikleyiciler olması beklenir.
Bu öngörücü modelin uygulanması, en azından şu anki düşünceme dayanarak, her ayın sonunda müşteri tabanını puanlamak ve bir sonraki ay boyunca çalkantı olasılığını / riskini hesaplamaktır. Sonra tekrar önümüzdeki 1,2 veya 3 ay boyunca. Sonra önümüzdeki 1,2,3,4,5,6 ay boyunca. 3 ve 6 aylık çalkalama olasılığı için, tahmini sağkalım eğrisini kullanırdım.
Sorun:
Puanlama hakkında düşünmeye gelince, zamanla değişen tahmin edicileri nasıl dahil edebilirim? Görünüşe göre sadece zamanla değişmeyen öngörücülerle skor yapabilir veya zamanla değişmeyenleri dahil edebilirim, onları zamanla değişmez yapmalısınız - “şu anda” değerine ayarlayın.
Herkesin bu hayatta kalma modelinin kullanımı konusunda deneyimi veya düşüncesi var mı?
@JVM yorumuna dayalı güncelleme:
Sorun, modeli tahmin etmek, katsayıları yorumlamak, eğitim verilerini vb. Kullanarak ilginç değişken değerlerin tehlike / hayatta kalma grafiklerini çizmektir . Sorun, belirli bir müşteri için riski tahmin etmek için modeli kullanmaktır. Diyelim ki bu ayın sonunda, hala aktif bir müşteri olan herkese bu modelle puan vermek istiyorum. Risk tahmininin x dönemini tahmin etmek istiyorum (hesabı önümüzdeki ayın sonunda kapatma riski. Hesabı iki ayın sonunda kapatma riski vb.). Zamanla değişen değişkenler varsa, değerleri gelecek dönemlerde bilinmemektedir, bu nedenle model nasıl kullanılır?
Son Güncelleme:
Bir kişi dönemi veri seti, her bir kişi ve risk altındaki her bir dönem için bir girişe sahip olacaktır. Diyelim ki J zaman periyotları var (belki 24 ay boyunca J = 1 ... 24) Ayrı bir zaman hayatta kalma modeli oluşturduğumu söyleyelim, basitlik için T zamanını doğrusal olarak ele alıyoruz ve X'in zaman olduğu iki X ve Z değişkenine sahibiz değişmez, yani kişi için her dönemde sabittir ve Z zamanla değişir, yani kişi için her kayıt farklı bir değer alabilir. Örneğin, X, müşterilerin cinsiyeti ve Z, önceki ay şirkete ne kadar değerli olduklarını gösterebilir. Jth döneminde i kişi için tehlike logit modeli:
Konudur Yani eşdeğişkenler ve yeni verilerle (henüz görünmeyen geleceğe) tahmin değişen zaman kullanırken, bilinmemektedir.
Düşünebileceğim tek çözüm:
- Z gibi zamanla değişen değişkenler kullanmayın. Bu, çalkalama olayını tahmin etmek için modeli büyük ölçüde zayıflatır, çünkü örneğin, Z'deki bir azalmanın görülmesi bize müşterinin ayrıldığını ve belki de ayrılmaya hazırlandığını söyler.
- Zamanla değişen değişkenler kullanın, ancak onları geciktirin (Z yukarıda olduğu gibi), ancak değişkeni geciktirdiğimiz birçok dönemi tahmin etmemizi sağlar (yine, yeni mevcut verileri puanlayan modeli düşünerek).
- Zamanla değişen değişkenler kullanın ancak tahminlerde sabitler olarak saklayın (bu nedenle model, değişken veriler için takıldı, ancak tahmin için bunları sabit bırakıyoruz ve daha sonra gerçekte gözlemlenirse, çalkalama riskini nasıl etkileyeceğini simüle ediyoruz.