Girintiyi Tahmin Etmek için Hayatta Kalma Modeli - Zamanla değişen tahminciler?


17

Ben karmaşayı tahmin etmek için bir tahmin modeli oluşturmak ve bir kişi dönemi eğitim veri kümesine (olay için bir gösterge ile risk altında her müşteri ve ayrık dönem için bir satır) monte edilmiş ayrı bir zaman hayatta kalma modeli kullanmak için arıyorum - eşitleme 1 eğer o dönemde oluk meydana gelirse, başka 0).

  • Modeli Singer ve Willet'in tekniğini kullanarak sıradan lojistik regresyon kullanarak takıyorum.
  • Bir müşterinin karmaşası bir ay boyunca herhangi bir yerde olabilir, ancak yalnızca ayın sonunda bunu biliyoruz (yani, o ayın bir döneminde). 24 ay eğitim için kullanılıyor.
  • Kullanılan zaman değişkeni numunenin başlangıç ​​zamanıdır - 31.12.2008 tarihinden itibaren aktif olan tüm müşteriler - hepsi Ocak 2009'dan itibaren t = 0 alır (bunu yapmanın klasik yolu değil, ama inşa ederken inanıyorum) geleneksel istatistiksel modellere göre öngörücü bir model). Bir ortak değişken, müşterinin o zamandaki görev süresidir.
  • İnşa edilen bir dizi ortak değişken vardır - bazıları veri kümesinin satırlarında (belirli bir müşteri için) değişmeyen ve bazıları.

  • Bu zaman değişkeni eş değişkenleri sorun ve bana karmaşa tahmini için bir hayatta kalma modeli sorguluyor (mevcut anlık görüntü verilerine göre sonraki x aydaki karmaşayı tahmin eden düzenli bir sınıflandırıcıya kıyasla). Zamanla değişmeyenler bir ay önceki etkinliği tanımlar ve önemli tetikleyiciler olması beklenir.

Bu öngörücü modelin uygulanması, en azından şu anki düşünceme dayanarak, her ayın sonunda müşteri tabanını puanlamak ve bir sonraki ay boyunca çalkantı olasılığını / riskini hesaplamaktır. Sonra tekrar önümüzdeki 1,2 veya 3 ay boyunca. Sonra önümüzdeki 1,2,3,4,5,6 ay boyunca. 3 ve 6 aylık çalkalama olasılığı için, tahmini sağkalım eğrisini kullanırdım.

Sorun:

Puanlama hakkında düşünmeye gelince, zamanla değişen tahmin edicileri nasıl dahil edebilirim? Görünüşe göre sadece zamanla değişmeyen öngörücülerle skor yapabilir veya zamanla değişmeyenleri dahil edebilirim, onları zamanla değişmez yapmalısınız - “şu anda” değerine ayarlayın.

Herkesin bu hayatta kalma modelinin kullanımı konusunda deneyimi veya düşüncesi var mı?

@JVM yorumuna dayalı güncelleme:

Sorun, modeli tahmin etmek, katsayıları yorumlamak, eğitim verilerini vb. Kullanarak ilginç değişken değerlerin tehlike / hayatta kalma grafiklerini çizmektir . Sorun, belirli bir müşteri için riski tahmin etmek için modeli kullanmaktır. Diyelim ki bu ayın sonunda, hala aktif bir müşteri olan herkese bu modelle puan vermek istiyorum. Risk tahmininin x dönemini tahmin etmek istiyorum (hesabı önümüzdeki ayın sonunda kapatma riski. Hesabı iki ayın sonunda kapatma riski vb.). Zamanla değişen değişkenler varsa, değerleri gelecek dönemlerde bilinmemektedir, bu nedenle model nasıl kullanılır?

Son Güncelleme:

Bir kişi dönemi veri seti, her bir kişi ve risk altındaki her bir dönem için bir girişe sahip olacaktır. Diyelim ki J zaman periyotları var (belki 24 ay boyunca J = 1 ... 24) Ayrı bir zaman hayatta kalma modeli oluşturduğumu söyleyelim, basitlik için T zamanını doğrusal olarak ele alıyoruz ve X'in zaman olduğu iki X ve Z değişkenine sahibiz değişmez, yani kişi için her dönemde sabittir ve Z zamanla değişir, yani kişi için her kayıt farklı bir değer alabilir. Örneğin, X, müşterilerin cinsiyeti ve Z, önceki ay şirkete ne kadar değerli olduklarını gösterebilir. Jth döneminde i kişi için tehlike logit modeli:

logit(h(tij))=α0+α1Tj+β1Xi+β2Zij

Konudur Yani eşdeğişkenler ve yeni verilerle (henüz görünmeyen geleceğe) tahmin değişen zaman kullanırken, bilinmemektedir.Zj

Düşünebileceğim tek çözüm:

  • Z gibi zamanla değişen değişkenler kullanmayın. Bu, çalkalama olayını tahmin etmek için modeli büyük ölçüde zayıflatır, çünkü örneğin, Z'deki bir azalmanın görülmesi bize müşterinin ayrıldığını ve belki de ayrılmaya hazırlandığını söyler.
  • Zamanla değişen değişkenler kullanın, ancak onları geciktirin (Z yukarıda olduğu gibi), ancak değişkeni geciktirdiğimiz birçok dönemi tahmin etmemizi sağlar (yine, yeni mevcut verileri puanlayan modeli düşünerek).
  • Zamanla değişen değişkenler kullanın ancak tahminlerde sabitler olarak saklayın (bu nedenle model, değişken veriler için takıldı, ancak tahmin için bunları sabit bırakıyoruz ve daha sonra gerçekte gözlemlenirse, çalkalama riskini nasıl etkileyeceğini simüle ediyoruz.
  • Zj

Birkaç soru: Birincisi, ayrık bir zaman modeli kullanmaya hazır mısınız? Parametrik bir hayatta kalma modelinde yapmak istediğiniz şey daha basit olabilir. İkincisi, karmaşa ile ne demek istediğinize bir örnek verebilir misiniz; ow belki sadece verilerinizin nasıl göründüğüne bir örnek?
Jason Morgan

@JWM. Churn, müşterinin hesabını iptal ettiği anlamına gelir. Sadece müşterinin iptal ettiği ayı bildiğim için ayrık zamanın uygun olduğunu düşünüyorum. Modelin ayrık veya sürekli zaman (Cox veya AFT) olması durumunda, zamanla değişen öngörücülerle aynı sorunun olduğuna inanıyorum.
B_Miner

Endişenizi hala tam olarak anlayamadığım için özür dilerim. Modelinizi yeterince iyi tahmin edebilmelisiniz. Yine de, muhtemelen TVC'nizde ve bağımlı değişkeninizde ölçüm hatası olacağından, modelde muhtemelen TVC'nin bir gecikmesini kullanmalısınız. Aksi takdirde, olayın gerçekleşmesinden sonra o olayın öngörücüsü olarak ölçülen bir değişken değeri kullanma riskiniz vardır. Zaman tutarlılığı sorununu görebilirsiniz. Hedefinizin tahmin olduğunu biliyorum, ancak makul güven aralıkları istiyorsanız, sağlam standart hataları tahmin etmek isteyeceksiniz (en azından).
Jason Morgan

@JVM görünüşe göre kendimi iyi açıklayamadım. Soruya bir cevap ekledim.
B_Miner

t=0s>0P(Ti>s+x|Fs) . Başka bir deyişle, ilk sağkalım eğrisini değil, koşullu sağkalım olasılıklarını arıyorsunuz. Haklı mıyım yoksa bir şey mi kaçırıyorum? Ben burada bu konuda bir soru önerdim
mr.bjerre

Yanıtlar:


1

Açıklama için teşekkürler B_Miner. Kendimi çok fazla tahmin etmiyorum, bu yüzden bir tutam tuzla takip edin. İşte veri en azından ilk kesim olarak ne yapacağım.

  • İlk olarak, TVC'lerinizi açıklayan bir modeli formüle edin ve tahmin edin. Veriler için iyi bir modele sahip olduğunuzdan emin olmak için tüm çapraz doğrulama, hata kontrolü vb.
  • İkincisi, bir hayatta kalma modelini (hangi aromadan olursa olsun) formüle edin ve tahmin edin. Bu modelin de makul olduğundan emin olmak için tüm çapraz doğrulama, hata kontrolü yapın.
  • Üçüncüsü, TVCs modelinden gelen tahminleri, gevşeme risklerini ve başka herhangi bir şeyi tahmin etmenin temeli olarak kullanma yöntemine karar verin. Bir kez daha, numunenizi kullanarak tahminlerin makul olduğunu doğrulayın.

Makul olduğunu düşündüğünüz bir modeliniz olduğunda, ilk TVC modelindeki hatayı ikinci modele dahil etmenin bir yolu olarak verileri önyüklemenizi öneririm. Temel olarak, her seferinde verilerden bir önyükleme örneği alarak ve bir dizi tahmin üreterek 1-3 N adımlarını uygulayın. Makul sayıda tahmininiz olduğunda, bunları göreviniz için uygun olduğunu düşündüğünüz herhangi bir şekilde özetleyin; örneğin, ilgili her bir birey veya ortak değişken profili için ortalama kayıp riski ve% 95 güven aralığı sağlayın.


@JVM. Önerinizin yukarıdaki son çözüm seçeneğim olduğunu doğru şekilde okudum mu (son güncellemede). Gerçek hayatta kalma modelinde kullanılacak her Z'yi (TVC) tahmin etmek için modeller geliştirdiğinizi mi?
B_Miner

2

Gördüğüm gibi kullanılabilecek iki hayatta kalma analizi paradigması var. Cox regresyon çerçevesi, zaman içinde değişen değişkenlere izin verir ve ortalama iptal seviyesine göre herhangi bir belirli ortak değişken setinde koşullandırılmış iptal riski için bir tahmin üretecektir. Poisson hataları olan glm çerçevesi de orantılı bir tehlike modelidir ve özellikle ayrık aralıklar için uygundur. JVM, mevcut ayda eksik verilerin kullanılmasında potansiyel bir hata olduğunu belirtti, ancak anladığım şey, bir ortak değişkenin veya ortak değişkenlerin en son değeri üzerinde koşullu bir tahmin istemenizdir. Veri durumunun daha iyi tanımlanması daha iyi örnekler verebilir ....

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.