Yanıtlar:
Seçebileceğiniz hata metrikleri havuzu, sınıflandırma ve regresyon arasında farklıdır. İkincisinde sürekli bir değer tahmin etmeye çalışırsınız ve sınıflandırma ile "sağlıklı" veya "sağlıklı değil" gibi ayrık sınıfları tahmin edersiniz. Bahsettiğiniz örneklerden, kök ortalama kare hatası regresyon için ve AUC iki sınıfla sınıflandırma için uygulanabilir olacaktır.
Size sınıflandırma hakkında biraz daha ayrıntı vereyim. AUC'yi ROC eğrisinin altındaki alan olan bir ölçü olarak söyledinizGenellikle iki sınıflı ikili sınıflandırma problemlerine uygulanır. İkiden fazla sınıf için bir ROC eğrisi oluşturmanın yolları olsa da, iki sınıf için ROC eğrisinin basitliğini kaybederler. Ek olarak, ROC eğrileri sadece seçim sınıflandırıcısı her bir tahminle ilişkili bir tür puan çıkarırsa oluşturulabilir. Örneğin, lojistik regresyon size her iki sınıf için olasılıklar verecektir. Basitliklerine ek olarak, ROC eğrileri, veri kümelerinizdeki pozitif ve negatif olarak etiketlenmiş örnekler arasındaki orandan etkilenmemeleri ve sizi bir eşik seçmeye zorlamama avantajına sahiptir. Bununla birlikte, sadece ROC eğrisine değil, diğer görselleştirmelere de bakılması önerilir. Hassas geri çağırma eğrilerine ve maliyet eğrilerine göz atmanızı tavsiye ederim.tek gerçek hata ölçüm, hepsi güçlerini ve zayıf yönleri vardır.
Bu konuda yardımcı bulduğum literatür:
Sınıflandırıcınız bir tür puan sağlamazsa , gerçek pozitiflerin sayısını, yanlış pozitifleri, gerçek negatifleri ve yanlış negatifleri içeren bir karışıklık matrisinden elde edilebilecek temel önlemlere geri dönmeniz gerekir . Yukarıda belirtilen görselleştirmeler (ROC, hassas hatırlama, maliyet eğrisi), sınıflandırıcının puanının farklı bir eşiği kullanılarak elde edilen bu tablolara dayanmaktadır. Bu durumda en popüler önlem muhtemelen F1-Measure. Buna ek olarak, bir karışıklık matrisinden alabileceğiniz uzun bir ölçüm listesi vardır: duyarlılık, özgüllük, pozitif tahmin değeri, negatif tahmin değeri, doğruluk, Matthews korelasyon katsayısı,… ROC eğrilerine benzer şekilde, karışıklık matrislerini anlamak çok kolaydır İkili sınıflandırma sorunu, ancak birden çok sınıfla daha karmaşık hale gelir, çünkü sınıfları için tek bir tablosu veya tabloyu her biri sınıflardan birini ( ) diğeriyle karşılaştırarak düşünmelisiniz. sınıfları ( değil ).N × N N 2 × 2 A A
Zaten var olan cevaplara birkaç düşünce daha ekleyeyim.
çalışma tasarımınıza bağlı olarak, doğru veya yanlış sınıflandırılmış örneklerin toplam kısmı uygun bir özet olabilir ya da olmayabilir ve bundan çıkarabileceğiniz sonuçlar da çalışma tasarımına bağlı olacaktır: Test verileriniz, sınıflar? Sınıflandırıcınızın kullanılması gereken popülasyon için? Tabakalı bir şekilde mi toplandı? Bu, bir sınıflandırıcının çoğu kullanıcısının öngörücü değerlerle daha fazla ilgilendiği, ancak duyarlılık ve özgüllüğün ölçülmesinin çok daha kolay olması ile yakından bağlantılıdır.
Genel yönergeleri soruyorsunuz. Genel bir kılavuz, bilmeniz gereken
Bu soruları yanıtlayamadıkça yararlı bir metrik bulamayacağınızı düşünüyorum .
Sınıflandırıcı doğrulamasında ücretsiz öğle yemeği yok gibi.
Beklenen yanlış sınıflandırma hata oranı, en sık kullandığım ve gördüğüm yöntemdir. ROC'nin AUC'si bir dizi sınıflandırma kuralının bir ölçüsüdür. Fikir, belirli bir sınıflandırıcıyı başka bir sınıflayıcıyla karşılaştırmaksa, AUC uygun değildir. Bazı sınıflandırma hataları biçimi, sınıflandırma kuralının en doğrudan performansını temsil ettiği için en mantıklıdır.
Yeniden yerleşim tahmininin büyük yanlılığı ve bir defaya mahsus bırakmadaki yüksek sapma nedeniyle sınıflandırma hata oranının iyi tahminlerini bulmak için çok fazla çalışma yapılmıştır. Önyükleme ve düzgün tahmin ediciler ön plana çıkarılmıştır. Örneğin, bkz.
İşte Efron ve Tibshirami'nin 1995 yılında yaptığı çalışmalardan bazıları dahil olmak üzere literatürü özetleyen teknik raporu .