İkili sınıflandırma için kayıp fonksiyonları arasında seçim yapma


18

İnsanların sıklıkla ROC-AUC veya AveP (ortalama hassasiyet) bildirdiği bir sorun alanında çalışıyorum . Ancak, yakın zamanda Log Loss'i optimize eden kağıtlar buldum , ancak diğerleri Menteşe Kaybını bildirdi .

Bu metriklerin nasıl hesaplandığını anlasam da , aralarındaki ödünleşimleri anlamakta zorlanıyorum ve bu tam olarak ne için iyi.

ROC-AUC ve Precision-Recall'a gelince, bu konu ROC-AUC-maksimizasyonunun "gerçek bir negatifi en azından gerçek bir pozitif kadar büyük sıralama" yı cezalandıran bir kayıp optimizasyon kriterleri olarak nasıl görülebileceğini tartışıyor ( puanlar pozitiflere karşılık gelir). Ayrıca, bu diğer evre , Hassas Geri Çağırma metriklerinin aksine ROC-AUC hakkında yararlı bir tartışma da sağlar .

Bununla birlikte, örneğin ROC-AUC , AveP veya Menteşe kaybına göre günlük kaybı ne tür problemler için tercih edilir ? En önemlisi, ikili sınıflandırma için bu kayıp fonksiyonları arasında seçim yaparken sorun hakkında ne tür sorular sorulmalıdır?

Yanıtlar:


8

Konuyla ilgili son teknoloji referansı [1]. Temel olarak, belirttiğiniz tüm kayıp işlevlerinin Bayes sınıflandırıcısına hızlı oranlarla yakınlaşacağını gösterir.

Sonlu örnekler için bunlar arasında seçim yapmak birkaç farklı argüman tarafından yönlendirilebilir:

  1. Olay olasılıklarını (ve sadece sınıflandırmaları değil) kurtarmak istiyorsanız, lojistik log kaybı veya diğer herhangi bir genelleştirilmiş doğrusal model (Probit regresyonu, tamamlayıcı-log-log regresyonu, ...) doğal bir adaydır.
  2. Sadece sınıflandırmayı hedefliyorsanız, SVM tercih edilen bir seçim olabilir, çünkü sadece sınıflandırmadaki gözlemleri hedefler ve uzak gözlemi yok sayar, böylece varsayılan doğrusal modelin gerçekliğinin etkisini hafifletir.
  3. Çok fazla gözleminiz yoksa, 2'deki avantaj bir dezavantaj olabilir.
  4. Hesaplama farklılıkları olabilir: hem belirtilen optimizasyon probleminde hem de kullandığınız belirli uygulamada.
  5. Sonuç olarak, hepsini deneyebilir ve en iyi sanatçıyı seçebilirsiniz.

[1] Bartlett, Peter L, Michael I Jordan ve Jon D McAuliffe. “Konveksite, Sınıflandırma ve Risk Sınırları.” Amerikan İstatistik Kurumu 101, no. 473 (Mart 2006): 138-56. DOI: / 016214505000000907 10.1198.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.