“Reddetme çıkarımı” nedir ve bir modelin doğruluğunu artırmak için nasıl kullanılabilir?


10

Herkes ayrıntılı olarak açıklayabilir mi:

  1. Reddetme çıkarımının anlamı nedir?
  2. Modelimin doğruluğunu artırmak için nasıl kullanılabilir?

Kredi kartı uygulamasında çıkarım yapmayı reddetme fikrim var ama modelimin doğruluğunu artırmak için kullanma düşüncesi ile mücadele ediyorum.

Yanıtlar:


23

Kredi modeli oluşturmada, reddetme çıkarımları başvuru sürecinde reddedilen kredi hesaplarının performansını ortaya çıkarma sürecidir.

Bir uygulama kredi riski modeli oluştururken, " kapıdan içeri " uygulanabilirliği olan bir model oluşturmak istiyoruz , yani tüm uygulama verilerini kredi riski modeline giriyoruz ve model bir risk derecesi veya olasılığı ortaya koyuyor varsayılan. Geçmiş verilerden bir model oluşturmak için regresyonu kullanırken sorun, hesabın performansını yalnızca geçmiş kabul edilen uygulamalar için bilmemizdir. Ancak, reddetmelerin performansını bilmiyoruz, çünkü başvurduktan sonra onları geri gönderdik. Bu, modelimizde seçim yanlılığına neden olabilir , çünkü modelimizde yalnızca geçmiş "kabuller" i kullanırsak, model "kapı boyunca" popülasyonda iyi performans göstermeyebilir.

Reddetme çıkarımıyla başa çıkmanın birçok yolu vardır, hepsi tartışmalıdır. Burada iki basit olandan bahsedeceğim.

  • "Geçmiş reddetmeleri kötü olarak tanımla"
  • Parselasyon

"Geçmiş reddetmeleri kötü olarak tanımla" yalnızca reddedilen tüm uygulama verilerini alıyor ve modeli oluştururken atmak yerine hepsini kötü olarak atayın. Bu yöntem, modeli geçmiş kabul / reddet politikasına büyük ölçüde önyargılar.

"Parselleme" biraz daha karmaşıktır. Bu oluşmaktadır

  1. Geçmiş "kabul" ile regresyon modelini oluşturun
  2. Onlara risk derecelendirmeleri atamak için modeli geçmiş reddetmelere uygulayın
  3. Her bir risk derecelendirmesi için beklenen temerrüt olasılığını kullanarak, reddedilen uygulamaları iyi veya kötü olarak atayın. Örneğin, risk derecelendirmesinin% 10'luk bir temerrüt olasılığı varsa ve bu risk derecelendirmesine giren 100 reddedilen uygulama varsa, reddetmelerin 10'unu "kötü" ye ve reddetmelerin 90'ını "iyi" olarak atayın.
  4. Kabul edilen uygulamaları ve şimdi reddedilen uygulamaların çıkarım performansını kullanarak regresyon modelini yeniden oluşturun

3. adımda iyi ya da kötü ödevleri yapmanın farklı yolları vardır ve bu işlem yinelemeli olarak da uygulanabilir.

Daha önce belirtildiği gibi, reddetme çıkarımının kullanımı tartışmalıdır ve modellerin doğruluğunu artırmak için nasıl kullanılabileceğine dair basit bir cevap vermek zordur. Ben sadece bu konuda başkalarına alıntı yapacağım.

Jonathan Crook ve John Banasik, Reddetme Çıkarımları Uygulama Puanlama Modellerinin Performansını Gerçekten Artırıyor mu?

Birincisi, başvuru sahiplerinin çok büyük bir kısmı reddedilse bile, yalnızca kabul edilenler üzerinde parametreleştirilmiş bir model üzerinde geliştirmenin kapsamı mütevazı görünmektedir. Ret oranının çok büyük olmadığı durumlarda, bu kapsam gerçekten çok küçük görünmektedir.

David Hand, "Kredi İşlemlerinde Doğrudan Çıkarım", Kredi Puanlama El Kitabında, 2001

Birkaç yöntem önerilmiş ve kullanılmıştır ve bazıları açıkça zayıf olsa da ve asla önerilmemeleri gerekirken, ekstra bilgi elde edilmedikçe evrensel uygulanabilirliğin en iyi benzersiz yöntemi yoktur. Yani, en iyi çözüm, reddetme bölgesine giren başvuru sahipleri hakkında daha fazla bilgi (belki de bazı potansiyel reddlere kredi vererek) elde etmektir.


1
Kapsamlı genel bakış için +1. Şimdi ne reddetme çıkarım ne olduğunu biliyorum :)
mpiktas

1
Teşekkürler. ama 3. adımda nasıl görev atarsınız? Ben 1 veya 0 kullanarak instad okudum her satır için olasılığı kullanabilirsiniz. Böylece aynı kişiye% 10 ve% 90 sahip olacaksınız. Bu yeni bir lojistik model oluşturma ile nasıl çalışabilir?
GabyLP

1

@GabyLP önceki yorumlarda. Deneyimlerime dayanarak, bu tür müşterileri iki parçaya bölebilir ve olasılıklara göre her iki bölünme için ağırlık atayabilirsiniz. Örneğin, reddedilen bir istemcinin% 10 PD'si varsa, bu istemciden iki istemci yapabilirsiniz. Birincisi, hedef değişken 1 ve ağırlık 0.1'e ve ikincisi hedef değişken 0 ve ağırlık 0.9'a sahiptir.

Kabul edilen müşterilerin tüm numuneleri ağırlık == 1 olacaktır.

Bu lojistik regresyon ile çalışırken ağaç tabanlı modellerle çalışmaz.


İfadeniz için bir kaynağınız var mı?
T. Beige

Eğer soru ağaç tabanlı modellerde çalışmıyorsa, cevabım - kişisel deneyim. Bu yaklaşımı uygulamaya çalıştım ama başaramadım.
MiksL
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.