Dengesiz veriler için sınıflandırma / değerlendirme ölçütleri


22

Dolandırıcılık tespiti (kredi puanlama benzeri) sorunu ile ilgileniyorum. Dolayısıyla, hileli ve hileli olmayan gözlemler arasında oldukça dengesiz bir ilişki vardır.

http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html , farklı sınıflandırma ölçümlerine harika bir genel bakış sağlar. Precision and Recallya da kappaher ikisi de iyi bir seçim gibi görünüyor:

Bu tür sınıflandırıcıların sonuçlarını haklı göstermenin bir yolu, bunları temel sınıflandırıcılarla karşılaştırmak ve bunların rastgele şans tahminlerinden gerçekten daha iyi olduklarını göstermektir.

Anladığım kadarıyla, kappaburadaki biraz daha iyi seçenek olabilir, rastgele bir şans olduğu dikkate alındığında. Gönderen düz İngilizce Cohen'in kappa I anlıyoruz kappabilgi kazanç kavramı ile fırsatları:

[...]% 80 Beklenen Doğruluk,% 50 Beklenen Doğruluk oranıyla% 50 Beklenen Doğruluk oranı ile çok daha az etkileyicidir [...]

Dolayısıyla benim sorularım şunlardı:

  • kappaBu sorun için daha uygun bir sınıflandırma metriği olduğunu varsaymak doğru mudur ?
  • Basitçe kullanmak kappa, dengesizliğin sınıflandırma algoritması üzerindeki olumsuz etkilerini önler mi? Yeniden (aşağı / yukarı) örnekleme veya maliyete dayalı öğrenme (bkz. Http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf ) hala gerekli midir?

Verilerinizi yukarı / aşağı örnekleme, eğitim verileri verilerinizle dengesiz olduğunda yapmanız gereken bir şeydir ve bazen sınıflandırıcıların azınlık sınıflarını görmezden gelmelerini önlemeye yardımcı olabilir . Sınıflandırıcınızı değerlendirirken yeniden örneklenen verileri kullanmanın uygunsuz (ve biraz hileli) - sınıflandırıcınızın orijinal test verilerinize aynı şekilde dağıtılmış bir örnek üzerinde uygulandığında sahip olmadığı bir performansı rapor edersiniz.
user48956,

Yanıtlar:


10

Evet, Kappa hakkındaki varsayımlarınız doğru görünüyor. Tekli olarak Kappa, skaler metrikler çoğunlukla ve daha küçük sınıfların tahmin performansını yansıtmayacak olan doğruluk gibi diğer tek skaler metriklere göre avantajlıdır ve daha büyük bir sınıfın performansıyla gölgelenir. Kappa, belirttiğiniz gibi bu sorunu daha zarif bir şekilde çözüyor.

Performansınızı ölçmek için Kappa gibi bir ölçüm kullanmak, modelinizin verilere uygunluğunu artırmayacaktır. Herhangi bir modelin performansını, çeşitli ölçümler kullanarak ölçebilirsiniz, ancak modelin verilere nasıl uyduğunu diğer parametreler (örneğin, hiperparametreler) kullanılarak belirlenir. Dolayısıyla, örneğin en dengesiz probleminiz için çoktan seçmeli seçenekler arasında en uygun model tipini seçmek ve hiperparametreyi seçmek için Kappa'yı kullanabilirsiniz - ancak Kappa'nın kendisini hesaplamak, modelinizin dengesiz verilerinize uyma şeklini değiştirmeyecektir.

Farklı ölçümler için: Kappa ve kesinlik / hatırlama dışında, gerçek pozitif ve doğru negatif oranlara da bakabilirsiniz TPR / TNR, ROC eğrileri ve AUC eğrisi altındaki alan. Bunlardan hangisi probleminiz için yararlı olacaktır, çoğunlukla amacınızın ayrıntılarına bağlı olacaktır. Örneğin, TPR / TNR’de ve hassas / hatırlamada yansıtılan farklı bilgiler: bu şekilde tespit edilen dolandırıcılık oranının yüksek olması ve bu şekilde tespit edilen meşru işlemlerin payının yüksek olması ve / veya payın en aza indirilmesi alarmlarda yanlış alarmlar (doğal olarak bu tür problemlerle "en kütle" olarak alacaksınız)?

Yukarı / aşağı örnekleme için: "Gerekirse" nin kanonik bir cevabı olmadığını düşünüyorum. Onlar senin problemini adapte etmenin bir yolu. Teknik olarak: evet, onları kullanabilirsiniz, ancak dikkatle kullanın, özellikle de örnekleme (fark etmeden gerçekçi olmayan örnekler oluşturabilirsiniz) - ve her iki sınıfın örneklerinin sıklığının da "vahşi doğada" gerçekçi olmayan bir şeye değiştirilmesinin farkında olun. "Tahminin performansı üzerinde de olumsuz etkileri olabilir. En azından son olarak yapılan test seti, numunelerin gerçek yaşam sıklığını tekrar yansıtmalıdır. Alt satır: Her iki durumda da yukarı ve / veya aşağı örneklemenin yapılmasının daha iyi sonuçlara yol açtığını gördüm, bu yüzden denemeniz gereken bir şey var (ancak test setlerinizi değiştirmeyin!) .


Ancak, genel iş etkisinin düşünüldüğü için DOI 10.1109 / ICMLA.2014.48 gibi maliyete dayalı bir yaklaşım daha uygun mudur?
Georg Heiler,

15

TPFPFN-

  • F1 puanı ise, harmonik ortalama bir hassasiyet ve hatırlama .
  • G-ölçer olup, geometrik ortalama bir hassasiyet ve hatırlama . F1 ile karşılaştırıldığında, dengesiz veriler için biraz daha iyi buldum.
  • TP/(TP+FP+FN-)

Not: Dengesiz veri kümeleri için, metriklerinizin makro ortalamalarının alınması en iyisidir .


1
G-ölçüsü ve Jaccard Endeksinden bahsederken 'daha iyi' derken ne demek istiyorsunuz?
Narfanar

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.