Gui11aume'un iki aşamalı bir model oluşturma fikri, doğru yoludur, ancak, borç tutarınız ile ödeme yapma olasılığı arasındaki çok güçlü negatif korelasyon olan kurulumunuzun özel zorluklarını düşünmek gerekir.
Burada iki aşamalı bir model oluşturmanın temel sorunu, ikinci modelin (borcun tahmini için), yalnızca "sıfır olmayanlar" üzerine inşa edildiğinde , nüfusun büyük olasılıkla rastgele olmayan bir örneği üzerine inşa edilmesidir ( yani tüm veri kümesi), ancak birleşik model tekrar tüm popülasyona uygulanmalıdır . Bu, ikinci modelin verilerin daha önce hiç görmediği kısımları için tahminlerde bulunması gerektiği anlamına gelir ve bu da doğruluk kaybına yol açar. Buna Örnek Seçim Yanlılığı denir (ML perspektifinden genel bir bakış için Smith ve Elkan'ın Reddetme Çıkarması için Bayes Ağı Çerçevesi öneririm ).
KDD-Cup-98 tek bir gazileri organizasyon için bir donör olasılıkla tekrar bağış ve ne kadar muhtemelen bağış olup olup olmadığını tahmin etmelidir benzer konuyla ilgilenmiştir. Bu veri kümesinde, tekrar bağış yapma olasılığı da beklenen para miktarı ile negatif korelasyon göstermiştir. Örnek Seçim Yanlılığı da ortaya çıktı.
Beni en çok etkileyen çözüm , Bianca Zadrozny ve Charles Elkan tarafından Maliyetler ve Olasılıkların Bilinmediği Durumlarda Öğrenme ve Karar Verme konusunda bulunabilir . Heckman düzeltmesine dayanan , bence (örnek) seçim yanlılığını düzeltmek için ilk sistematik yaklaşım olan maliyete duyarlı bir çözüm oluşturdular .