Sınıflandırıcıların değerlendirilmesi: öğrenme eğrileri ve ROC eğrileri


11

Büyük eğitim veri kümeleri kullanan çok sınıflı bir metin sınıflandırma sorunu için 2 farklı sınıflandırıcıyı karşılaştırmak istiyorum. 2 sınıflandırıcıyı karşılaştırmak için ROC eğrilerini mi yoksa öğrenme eğrilerini mi kullanmam gerektiğinden şüpheliyim.

Bir yandan, öğrenme eğrileri, eğitim veri kümesinin boyutuna karar vermek için yararlıdır, çünkü sınıflandırıcının öğrenmeyi durdurduğu (ve belki de bozulduğu) veri kümesinin boyutunu bulabilirsiniz. Bu durumda, bu durumda en iyi sınıflandırıcı, en küçük veri kümesi boyutuyla en yüksek doğruluğa ulaşan sınıflayıcı olabilir.

Öte yandan, ROC eğrileri duyarlılık / özgüllük arasında doğru denge ile bir nokta bulmanızı sağlar. Bu durumda en iyi sınıflandırıcı, herhangi bir FPR için en yüksek TPR'ye sahip olan sol üst kısma daha yakın olanıdır.

Her iki değerlendirme yöntemini de kullanmalı mıyım? Daha iyi bir öğrenme eğrisine sahip bir yöntemin daha kötü bir ROC eğrisine sahip olması mümkün mü?


Eğitim seti büyüdükçe performansın düştüğü bir sınıflandırıcı örneğiniz var mı?
mogron

Yanıtlar:


11

Öğrenme eğrisi, yalnızca modelinizin ne kadar hızlı öğrendiğini ve tüm analizinizin çok küçük setler / çok küçük toplulukların (eğer varsa) ilginç bir alanda takılıp kalıp kalmadığını anlatan bir teşhis aracıdır. Bu grafiğin model değerlendirmesi için ilginç olan tek kısmı, sonudur, yani nihai performanstır - ancak bunun bildirilmesi için bir plana ihtiyacı yoktur.
Sorunuzda çizildiğiniz gibi bir öğrenme eğrisine dayalı bir model seçmek oldukça kötü bir fikirdir, çünkü çok küçük bir örnek setine fazla uymak için en iyi olan bir model seçmeniz muhtemeldir.

ROC'lar hakkında ... ROC eğrisi , bir nesnenin bir sınıfa ait olduğu konusunda güven puanı üreten ikili modelleri değerlendirmek için bir yöntemdir ; muhtemelen onları gerçek bir sınıflandırıcıya dönüştürmek için en iyi eşikleri bulmaktır.
Açıkladığınız şey, sınıflandırıcılarınızın performansını ROC alanında bir TPR / FPR dağılım grafiği olarak çizmek ve yanlış alarmlar ve eksikler üretmek arasında en iyi dengelenmiş olanı seçmek için en yakından sola doğru kriteri kullanmaktır - - Bu özel amaca, en iyi F-skoruna (harmonik hassasiyet ve hatırlama ortalaması) sahip bir model seçerek daha zarif bir şekilde elde edilebilir .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.