Cox Modeli - Lojistik Regresyon


15

Diyelim ki bize aşağıdaki problem verildi:

Önümüzdeki 3 ay içinde hangi müşterilerin mağazamızda alışveriş yapmayı bırakma olasılığının yüksek olduğunu tahmin edin.
Her müşteri için mağazamızda satın almaya başladığı ayı biliyoruz ve ayrıca aylık toplamlarda birçok davranışsal özelliğe sahibiz. 'En büyük' ​​müşteri elli aydır satın alıyor; edelim bir istemci tarafından satın başladı yana zamanı belirtmek t ( t[0,50] ). Müşteri sayısının çok fazla olduğu varsayılabilir. Bir müşteri üç ay boyunca satın almayı bırakır ve sonra geri gelirse, yeni bir müşteri olarak değerlendirilir, böylece bir etkinlik (satın almayı durdur) yalnızca bir kez gerçekleşebilir.

Aklıma iki çözüm geliyor:

Lojistik regresyon - Her müşteri ve her ay için (belki de en yeni 3 ay hariç), bir müşterinin satın almayı bırakıp bırakmadığını söyleyebiliriz, böylece müşteri ve ay başına bir gözlemle haddeleme örnekleri yapabiliriz. Temel tehlike fonksiyonuna eşdeğer bir değer elde etmek için kategorik bir değişken olarak başladığımızdan beri geçen ay sayısını kullanabiliriz.

Genişletilmiş Cox modeli - Bu sorun ayrıca genişletilmiş Cox modeli kullanılarak da modellenebilir. Bu sorunun hayatta kalma analizine daha uygun olduğu görülüyor.

Soru: Benzer problemlerde sağkalım analizinin avantajları nelerdir? Hayatta kalma analizi bir nedenden dolayı icat edildi, bu yüzden ciddi bir avantaj olmalı.

Hayatta kalma analizindeki bilgim çok derin değil ve Cox modelinin potansiyel avantajlarının çoğunun lojistik regresyon kullanılarak da elde edilebileceğini düşünüyorum.

  • Tabakalı Cox modelinin eşdeğeri, ve tabakalaşma değişkeninin bir etkileşimi kullanılarak elde edilebilir . t
  • Etkileşim Cox modeli, popülasyonu birkaç alt popülasyona daldırarak ve her alt popülasyon için LR'yi tahmin ederek elde edilebilir.

Gördüğüm tek avantaj Cox modelinin daha esnek olması; örneğin, bir müşterinin 6 ay içinde satın almayı durdurma olasılığını kolayca hesaplayabiliriz.

Yanıtlar:


10

Cox modeliyle ilgili sorun, hiçbir şey öngörmemesi. Cox modellerindeki "kesişme" (temel tehlike fonksiyonu) hiçbir zaman tahmin edilmez. Lojistik regresyon, bu durumda, bir olayın riskini veya olasılığını tahmin etmek için kullanılabilir: bir konunun belirli bir ayda bir şey satın alıp almayacağı.

Sıradan lojistik regresyonun ardındaki varsayımlarla ilgili sorun, aynı kişi veya gözlemlerin gerçekleştiği ay olsun, her bir kişi-aylık gözlemine bağımsız olarak davranmanızdır. Bu tehlikeli olabilir, çünkü bazı eşyalar iki aylık aralıklarla satın alınır, bu nedenle birbirini izleyen kişi gözlemleri negatif korelasyon gösterir. Alternatif olarak, müşteri korunur ya olan aylık gözlemler tarafından ardışık kişiyi lider iyi veya kötü deneyimler tarafından kaybedilebilir pozitif korelasyon.

Bu tahmin sorununa iyi bir başlangıç, önümüzdeki ayın işiyle ilgili tahminlerimizi bildirmek için önceki bilgileri kullanabileceğimiz tahmin yaklaşımını benimsiyor. Bu sorunun basit bir başlangıç gecikmeli etkisi ya da bir konu gelmişti olmadıklarının bir göstergesi için ayarlama yaptığı son geldikleri olabilir olmadığının bir göstergesi olarak, ayın bu ay.


2
Burada bağımsızlık sorununu çözmek için çok düzeyli bir lojistik regresyon kullanılamaz mı? Seviye 2 müşteriler olacak ve seviye 1 zaman içinde tekrarlanan önlemler olacaktır.
Forinstance

1
@AdamO, kesişme tahmin edilebilir ve bireyin kısmi tehlikesinin tahmini ile birlikte, bireysel hayatta kalma eğrileri oluşturabiliriz. Cox modelinin neden "hiçbir şeyi" tahmin edebileceğini düşündüğünüzden emin değilim.
Cam.Davidson.Pilon

δ

Tahmin amacıyla, bunların engelleyici olmadığını hissediyorum. Tek bir tahmin oluşturmak için çoklu tahminleri birleştirmek olağandışı değildir ve (ne yazık ki ve bunun için savunmuyorum) tahmin aralıkları yaygın olarak kullanılmamaktadır veya zaten mevcut değildir.
Cam.Davidson.Pilon

@ Cam.Davidson.Pilon Hayatta kalma verilerinden risk tahminleri alınamayacağını söylemedim, Cox modellerinin riski öngörmediğini söyledim. Arama coxphve risk tahminleri alma arasındaki adımlar dik ve çoktur.
AdamO

3

TjjPr(Tj>3)j3

Hayatta kalma analizi, her müşterinin çalışmaya kendi giriş zamanına sahip olduğu gerçeğini dikkate alır. Bu nedenle takip süresinin müşteriler arasında değişmesi bir sorun oluşturmaz.

j


Açıklama : işte, bazı kısıtlamalar altında, hem lojistik hem de Cox modelinin bağlantılı olduğunu gösteren bir makale .


Cevap için teşekkürler. SA sansürü düzgün bir şekilde ele alırsa, LR çözeltisinin sansürü düzgün işlemediğini gösterir. Nasıl sonuçlanır? Kendimi hala sabit bir hedef için SA'nın daha iyi olduğuna ikna edemiyorum. Bu makaleyi ücretsiz olarak bir yerde bulabilir miyim?
Tomek Tarczynski

Y=0

E-postam: tomek.tarczynski@gmail.com Çok teşekkür ederim!
Tomek Tarczynski

@TomekTarczynski: alındı?
ocram

Evet, tekrar teşekkürler! Daha dikkatli okumak için yarın zamanım olacak. Sadece yağmaladım ve doğru anladıysam, biraz farklı bir sorunu ele alıyor. Dükkan benzetmesini kullanarak LR ve COX sorununu "Müşterinin başlangıçtan itibaren sabit sayıda ay geçtikten sonra müşteri olmayacağı ihtimali nedir?"
Tomek Tarczynski

2

Pazarlama literatürü burada bir Pareto / NBD önermektedir. Temel olarak satın almayı - satın alırken - negatif bir binom dağılımını izlediğini varsayarsınız. Ancak müşterinin durduğu zamanı modellemelisiniz. Diğer kısım bu.

Pete Fader ve Bruce Hardie'nin Abe'yle birlikte bazı makaleleri var.

Pareto / NBD'ye birkaç basit yaklaşım var, hatta Fader ve Hardie'nin çeşitli kağıtlarını sayıyorlar. Zaman içinde her noktada durma olasılığının sabit olduğu varsayıldığı daha basit yaklaşımı KULLANMAYIN - bu, daha ağır müşterilerinizin daha erken ayrılma olasılığının yüksek olduğu anlamına gelir. Takılması daha basit bir model, ancak yanlış.

Bir süredir bunlara uymadım; biraz özgün olmadığım için üzgünüm.

İşte bu sorunu hiyerarşik bir Bayes olarak vurgulayan Abe makalesine bir referans. . Bu alanda tekrar çalışsaydım, bu yaklaşımı test ederdim.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.