Gerçekten harika bir soru ve çoğu insanın sezgisel bir seviyede anlamadığı bir soru. AUC
Aslında, çeşitli nedenlerden dolayı ikili sınıflandırma için doğruluk yerine sıklıkla tercih edilir. İlk önce tam olarak ne hakkında konuşalım AUC
. Dürüst olmak gerekirse, en yaygın kullanılan etkinlik ölçütlerinden biri olmak için, tam olarak nasıl AUC
çalıştığını anlamak şaşırtıcı derecede zor .
AUC
açılımı Area Under the Curve
sormak hangi eğri? Eh, bu ROC
eğri olurdu . aslında biraz sezgisel olmayan Alıcı Çalışma KarakteristiğiROC
anlamına gelir . Asıl amacı, çok eğrilmiş bir örneklem dağılımınızın olduğu ve tek bir sınıfa giymek istemediğiniz durumlarla ilgilenmektir.AUC
Harika bir örnek spam tespitinde. Genel olarak, spam veri setleri jambon veya spam olmayanlara karşı güçlü bir şekilde önyargılıdır. Veri setiniz% 90 jambon ise, her bir e-postanın jambon olduğunu söyleyerek oldukça iyi bir doğruluk elde edersiniz, bu açıkça ideal olmayan bir sınıflandırıcıyı gösterir. Bizim için biraz daha yararlı olan birkaç ölçümle başlayalım, özellikle doğru pozitif oran ( TPR
) ve yanlış pozitif oran ( FPR
):
Şimdi bu grafikte, TPR
özellikle pozitif pozitifin tüm pozitiflere FPR
oranı ve sahte pozitiflerin tüm negatiflere oranıdır. (Bunun sadece ikili sınıflandırma için olduğunu aklınızda bulundurun.) Bunun gibi bir grafikte, tüm 0'ların veya tüm 1'lerin bir tahmininin sırasıyla (0,0)
ve sonuçlarına yol açacağını bulmak oldukça basit olmalıdır (1,1)
. Bu çizgilerden bir çizgi çekerseniz, şöyle bir şey elde edersiniz:
Temelde köşegen bir çizgiye benzeyen (öyle) ve bazı kolay geometrilerde AUC
böyle bir modelin olacağını göreceksiniz 0.5
(yükseklik ve taban her ikisi de 1). Benzer şekilde, 0 ve 1'lerin rastgele bir ürün yelpazesini tahmin ederseniz,% 90% 1 diyelim (0.9, 0.9)
, yine o çapraz çizgi boyunca düşen noktayı elde edebilirsiniz .
Şimdi ilginç kısım geliyor. Ya sadece 0 ve 1'leri öngörmemiş olsaydık? Ya bunun yerine, teorik olarak, her sonucun 1 olduğu ve altında her sonucun 0 olduğu bir kesme ayarlayacağımızı söylemek istedik, bu, aşırı uçlarda, bulunduğunuz orijinal durumu elde ettiğiniz anlamına gelir. tüm 0'ları ve tüm 1'leri (sırasıyla 0 ve 1'lik bir kesimde), ancak aynı zamanda 1x1
sizi içeren grafiğe giren bir dizi ara durumu var ROC
. Uygulamada şöyle bir şey elde edersiniz:
Temel olarak, AUC
aşırı doğruluk yaptığınız zaman gerçekten elde ettiğiniz şey insanları temsili olan ancak ayrımcı olmayan modellere gidenleri caydıracak bir şeydir; doğruluk için garanti edilmeyen rastgele şansın üzerindedir.