Dolandırıcılık tespiti (kredi puanlama benzeri) sorunu ile ilgileniyorum. Dolayısıyla, hileli ve hileli olmayan gözlemler arasında oldukça dengesiz bir ilişki vardır.
http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html , farklı sınıflandırma ölçümlerine harika bir genel bakış sağlar. Precision and Recall
ya da kappa
her ikisi de iyi bir seçim gibi görünüyor:
Bu tür sınıflandırıcıların sonuçlarını haklı göstermenin bir yolu, bunları temel sınıflandırıcılarla karşılaştırmak ve bunların rastgele şans tahminlerinden gerçekten daha iyi olduklarını göstermektir.
Anladığım kadarıyla, kappa
buradaki biraz daha iyi seçenek olabilir, rastgele bir şans olduğu dikkate alındığında. Gönderen düz İngilizce Cohen'in kappa I anlıyoruz kappa
bilgi kazanç kavramı ile fırsatları:
[...]% 80 Beklenen Doğruluk,% 50 Beklenen Doğruluk oranıyla% 50 Beklenen Doğruluk oranı ile çok daha az etkileyicidir [...]
Dolayısıyla benim sorularım şunlardı:
kappa
Bu sorun için daha uygun bir sınıflandırma metriği olduğunu varsaymak doğru mudur ?- Basitçe kullanmak
kappa
, dengesizliğin sınıflandırma algoritması üzerindeki olumsuz etkilerini önler mi? Yeniden (aşağı / yukarı) örnekleme veya maliyete dayalı öğrenme (bkz. Http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf ) hala gerekli midir?