Yanıtlar:
Doğru olarak sınıflandırılan oran uygun olmayan bir puanlama kuralıdır, yani sahte bir modelle optimize edilmiştir. Brier skoru olarak bilinen kuadratik uygun skorlama kuralını veya uyum olasılığını (ikili durumunda ROC eğrisinin altındaki alan ) kullanırdım. Rastgele orman sizin durumunuzda SVM'den daha iyi çalışır.
Bence kesinlikle sadece AUC ve doğruluktan daha fazla metriklere bakmalısınız.
Doğruluk (duyarlılık ve özgüllük ile birlikte), sizi mutlak tahmin sonucuna bakmaya zorlayan ve sınıf olasılıklarının veya sıralamanın iddiasına açılmayan çok basit ama taraflı bir metriktir. Ayrıca, popülasyonu yanlış yorumlamaya davet eden popülasyonu, doğruluk yüksek olsa bile,% 95 rastgele doğru olma şansı olan bir popülasyonda% 95 doğruluk sağlayan bir model olarak dikkate almaz.
EAA, nüfus sınıfı olasılıklarından bağımsız model doğruluğunu ortaya koymak için iyi bir metriktir. Bununla birlikte, olasılık tahminlerinin gerçekte ne kadar iyi olduğu hakkında size bir şey söylemeyecektir. Yüksek bir AUC elde edebilirsiniz, ancak yine de çok çarpık olasılık tahminleri vardır. Bu metrik doğruluktan daha ayrımcıdır ve bazı uygun puanlama kurallarıyla birlikte kullanıldığında kesinlikle daha iyi modeller verecektir, örneğin başka bir gönderide belirtildiği gibi Brier puanı.
Bu makale oldukça teorik olmasına rağmen burada daha resmi bir kanıt elde edebilirsiniz: AUC: Doğruluktan Daha İstatistiksel Olarak Tutarlı ve Daha Ayrımcı Bir Tedbir
Bununla birlikte, bir dizi iyi metrik mevcuttur. İkili Sınıf Olasılık Tahmini ve Sınıflandırma için Kayıp Fonksiyonları: Yapı ve Uygulamalar Brier skoru gibi uygun puanlama kurallarını araştıran iyi bir yazıdır.
Model performansının iddiası için metriklere sahip bir başka ilginç makale Değerlendirme'dir: Kesinlik, geri çağırma ve F-ölçümünden ROC'ye, bilinçlilik, belirginlik ve korelasyon, bilinçlilik gibi diğer iyi performans metriklerini alır.
Özetlemek gerekirse, model performansını desteklemek için AUC / Gini ve Brier puanlarına bakmanızı tavsiye ederim, ancak modelinize göre hedefe bağlı olarak diğer metrikler sorununuza daha iyi uyabilir.