İki sınıflandırıcım var
- A: saf Bayesian ağı
- B: ağaç (tek başına bağlı) Bayesian ağı
Doğruluk ve diğer önlemler bakımından A, B'den daha kötü performans gösterir. Ancak, ROC analizi yapmak için RR ROCR ve AUC paketlerini kullandığımda, A için AUC'nin B için AUC'den daha yüksek olduğu ortaya çıktı. olay?
Gerçek pozitif (tp), yanlış pozitif (fp), yanlış negatif (fn), gerçek negatif (tn), duyarlılık (sen), özgüllük (spec), pozitif öngörü değeri (ppv), negatif öngörü değeri (npv) ve A ve B için doğruluk (acc) aşağıdaki gibidir.
+------+---------+---------+
| | A | B |
+------+---------+---------+
| tp | 3601 | 769 |
| fp | 0 | 0 |
| fn | 6569 | 5918 |
| tn | 15655 | 19138 |
| sens | 0.35408 | 0.11500 |
| spec | 1.00000 | 1.00000 |
| ppv | 1.00000 | 1.00000 |
| npv | 0.70442 | 0.76381 |
| acc | 0.74563 | 0.77084 |
+------+---------+---------+
Marjinaller üzerindeki (tp, fn, fn ve tn hariç) marjinaller üzerindeki duyu ve bağlar dışında (spec ve ppv hariç) B, A'dan daha iyi performans gösteriyor gibi görünüyor.
Sens için AUC'yi hesapladığımda (y ekseni) vs 1 spec (x ekseni) vs
aucroc <- auc(roc(data$prediction,data$labels));
işte AUC karşılaştırması.
+----------------+---------+---------+
| | A | B |
+----------------+---------+---------+
| sens vs 1-spec | 0.77540 | 0.64590 |
| sens vs spec | 0.70770 | 0.61000 |
+----------------+---------+---------+
Sorularım işte burada:
- B için AUC, doğruluk bakımından A'dan daha iyi performans gösterdiği zaman, neden B'den daha iyidir?
- Peki, A ve B'nin sınıflandırma performanslarını gerçekten nasıl yargılayabilir / karşılaştırabilirim? Yani, AUC değerini kullanır mıyım? Acc değerini kullanır mıyım, öyleyse neden?
- Ayrıca, A ve B'ye uygun puanlama kuralları uyguladığımda, B, kütle kaybı, karesel kayıp ve küresel kayıp açısından A'yı geride bırakmaktadır (p <0.001). Bunlar AUC'ye göre sınıflandırma performansını değerlendirmede nasıl ağırlık alırlar?
- A için ROC grafiği çok düzgün görünüyor (kavisli bir yay), ancak B için ROC grafiği bir dizi bağlı çizgiye benziyor. Bu neden?
İstenildiği gibi, işte A modeli için grafikler.
İşte B modeli için grafikler.
İşte A ve B olasılıklarının dağılımının histogram grafikleri. (Molalar 20 olarak ayarlanmıştır).
İşte B vs A olasılıklarının dağılım grafiği.