Zaten veri seçimi tarafından (ağırlıklı olarak) önyargılı verilerle bir Makine Öğrenimi projesi üzerinde çalışıyorum.
Bir dizi sabit kodlu kuralınız olduğunu varsayalım. Kullanabileceği tüm veriler zaten bu kurallara göre filtrelenmiş veriler olduğunda, bunun yerine bir makine öğrenme modeli nasıl oluşturulur?
Her şeyi açıklığa kavuşturmak için en iyi örnek Kredi Riski Değerlendirmesi olacaktır : Görev, ödeme yapamayan tüm müşterilere filtre uygulamaktır.
- Şimdi, sahip olduğunuz tek (etiketli) veriler, kurallar dizisi tarafından kabul edilen istemcilerden alınmıştır, çünkü yalnızca kabul ettikten sonra birisinin ödeme yapıp yapmadığını (açıkça) göreceksiniz. Kurallar kümesinin ne kadar iyi olduğunu ve ücretli - ödenmemiş dağıtımı ne kadar etkileyeceklerini bilmiyorsunuz. Ayrıca, yine kurallar kümesi nedeniyle reddedilen istemcilerden etiketlenmemiş verileriniz var. Yani bu müşteriler kabul edilmiş olsaydı ne olurdu bilmiyorsun.
Örneğin kurallardan biri şu olabilir: "Eğer müşterinin yaşı 18 yaşından küçükse kabul etmeyin"
Sınıflandırıcı, bu kurallar tarafından filtrelenen istemcilerin nasıl ele alınacağını öğrenmenin bir yolu yoktur. Sınıflandırıcının burada kalıbı nasıl öğrenmesi gerekiyor?
Bu sorunu göz ardı etmek, modelin daha önce hiç karşılaşmadığı verilere maruz kalmasına yol açacaktır. Temel olarak, x burada [a, b] dışında olduğunda f (x) değerini tahmin etmek istiyorum.