İkili ve sürekli yanıtı birleştirmenin en iyi yolu


10

Bir tahsilat ajansı için ödeme tutarını tahmin etmenin en iyi yolunu bulmaya çalışıyorum. Bağımlı değişken yalnızca bir ödeme yapıldığında sıfır değildir. Anlaşılır şekilde, çok sayıda sıfır var, çünkü çoğu insana ulaşılamıyor veya borcu geri ödeyemiyor.

Ayrıca borç tutarı ile ödeme yapma olasılığı arasında çok güçlü bir negatif korelasyon vardır. Tipik olarak, ödeme / ödeme yapmama olasılığını tahmin etmek için lojistik bir model yaratacağım, ancak bunun en düşük bakiyeye sahip insanları bulmanın talihsiz bir sonucu var.

Lojistik bir ödeme / ödeme dışı modeli, ödeme tutarını tahmin eden ayrı bir modelle birleştirmenin bir yolu var mı?


5
İhtiyaçlarınıza uygun görünen sıfır şişmiş log-normal regresyon var. Bu makaleye
Peter Flom

@PeterFlom, bunun gui11aume ve steffen'in iki aşamalı bir model ve örnek seçim yanlılığı hakkındaki tartışması ile nasıl karşılaştırıldığını düşünüyorsunuz?
As3adTintin

1
Her ikisinin de yararlı olabileceğini düşünüyorum. İkisini karşılaştıran bir tartışma var, ama nerede okuduğumu unutuyorum.
Peter Flom


tamam teşekkürler. Sinir ağı / relu aktivasyonu şu anki bilgilerimin ötesine geliyor, ama bunlara bakmaya devam edeceğim. orijinal soruyu sorduğunuz ve yorumlarınız için teşekkürler!
As3adTintin

Yanıtlar:


6

Gui11aume'un iki aşamalı bir model oluşturma fikri, doğru yoludur, ancak, borç tutarınız ile ödeme yapma olasılığı arasındaki çok güçlü negatif korelasyon olan kurulumunuzun özel zorluklarını düşünmek gerekir.

Burada iki aşamalı bir model oluşturmanın temel sorunu, ikinci modelin (borcun tahmini için), yalnızca "sıfır olmayanlar" üzerine inşa edildiğinde , nüfusun büyük olasılıkla rastgele olmayan bir örneği üzerine inşa edilmesidir ( yani tüm veri kümesi), ancak birleşik model tekrar tüm popülasyona uygulanmalıdır . Bu, ikinci modelin verilerin daha önce hiç görmediği kısımları için tahminlerde bulunması gerektiği anlamına gelir ve bu da doğruluk kaybına yol açar. Buna Örnek Seçim Yanlılığı denir (ML perspektifinden genel bir bakış için Smith ve Elkan'ın Reddetme Çıkarması için Bayes Ağı Çerçevesi öneririm ).

KDD-Cup-98 tek bir gazileri organizasyon için bir donör olasılıkla tekrar bağış ve ne kadar muhtemelen bağış olup olup olmadığını tahmin etmelidir benzer konuyla ilgilenmiştir. Bu veri kümesinde, tekrar bağış yapma olasılığı da beklenen para miktarı ile negatif korelasyon göstermiştir. Örnek Seçim Yanlılığı da ortaya çıktı.

Beni en çok etkileyen çözüm , Bianca Zadrozny ve Charles Elkan tarafından Maliyetler ve Olasılıkların Bilinmediği Durumlarda Öğrenme ve Karar Verme konusunda bulunabilir . Heckman düzeltmesine dayanan , bence (örnek) seçim yanlılığını düzeltmek için ilk sistematik yaklaşım olan maliyete duyarlı bir çözüm oluşturdular .


+1 İkinci paragrafınız cevabımda eksik olan bir şeyi çok güzel vurgular.
gui11aume

Bu Peter Flom'un sıfır şişirilmiş log-normal regresyon önerisiyle nasıl karşılaştırılır?
As3adTintin

3

Bu çok güzel bir soru (+1).

Neden 0'lara NA'larmış gibi davranmıyorsunuz?

Herhangi bir paranın geri kazanılıp kazanılmadığını belirten bir kukla yanıt ekleyebilir ( yani değer 0 olduğunda 0'a ve değer pozitif olduğunda 1'e eşit) ve bu ikili yanıta aynı öngörücülerle bir lojistik model sığdırabilirsiniz. İki modele uyuyorsunuz: tüm veri noktalarını kullanan ikili yanıt ve yalnızca sıfır olmayan veri noktalarını kullanan sürekli yanıt (0'ı NA olarak işleme fikri doğrultusunda).

Yine de her modeldeki parametrelerin geçersizliğini test edebilir ve her iki parametre setini kullanarak beklenen kazancı hesaplayabilirsiniz.


Öneri için teşekkürler. Sorumdan önce, açıkladığınıza benzer iki bağımlı değişken ve veri kümesi oluşturmuştum. Ne demek istediğini "Hala paramenterlerin hükümsüzlüğü" ile açıklayabilir misin? Teşekkürler!
Zelazny7

"Yine de parametrelerin geçersizliği" metinde sabitlediğim bir yazım hatasıydı. Üzgünüm :-)
gui11aume
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.