Bir ikili sınıflandırma ayarında doğruluk uygunsuz bir puanlama kuralı mıdır?


13

Son zamanlarda olasılık sınıflandırıcıları için uygun puanlama kurallarını öğreniyorum. Bu web sitesindeki bazı konular, doğruluğun uygun olmayan bir puanlama kuralı olduğunu ve lojistik regresyon gibi olasılıklı bir model tarafından üretilen tahminlerin kalitesini değerlendirmek için kullanılmaması gerektiğini vurgulamaktadır.

Ancak, okuduğum oldukça az sayıda akademik makale, bir ikili sınıflandırma ortamında (katı olmayan) uygun puanlama kuralı örneği olarak yanlış sınıflandırma kaybı vermiştir. Bulabildiğim en açık açıklama, bu makalede , sayfa 7'nin altındaydı. Anladığım kadarıyla, yanlış sınıflandırma kaybını en aza indirmek doğruluğu en üst düzeye çıkarmakla eşdeğerdir ve kağıttaki denklemler sezgisel olarak anlamlıdır.

Örneğin: makalenin gösterimini kullanarak, ilgili sınıfın gerçek koşullu olasılığı (bazı özellik vektörü x verildiğinde ) η = 0.7 ise, q > 0.5 tahminlerinde beklenen bir kayıp R (η | q ) = 0,7 (0) + 0,3 (1) = 0,3 ve q 0,5'in beklenen 0,7 kaybı olur. Bu nedenle kayıp fonksiyonu q = η = 0.7'de minimize edilecek ve sonuç olarak uygun olacaktır; tüm gerçek koşullu olasılıklar ve tahminlerin genelleştirilmesi, oradan yeterince basit görünmektedir.

Yukarıdaki hesaplamaların ve ifadelerin doğru olduğu varsayıldığında, benzersiz olmayan bir minimumun dezavantajları ve aynı minimum beklenen kaybı paylaşan 0.5'in üzerindeki tüm tahminler açıktır. Hala günlük skoru, Brier skoru, vb. Geleneksel alternatifler üzerinde doğruluk kullanmak için bir neden göremiyorum. yanlış - ya yanlış sınıflandırma kaybı anlayışımda ya da doğrulukla eşitlemede?

Yanıtlar:


15

TL; DR

Doğruluk yanlış bir puanlama kuralıdır. Kullanma.

Biraz daha uzun versiyon

Aslında doğruluk bir puanlama kuralı bile değildir. Bu yüzden (kesinlikle) uygun olup olmadığını sormak bir kategori hatasıdır. Söyleyebileceğimiz en fazla şey, ek varsayımlar altında doğruluğun uygunsuz, süreksiz ve yanıltıcı olan bir puanlama kuralıyla tutarlı olduğudur. (Kullanma.)

Karışıklık

Karışıklıklarınız, alıntıladığınız kağıda göre yanlış sınıflandırma kaybının da bir puanlama kuralı olmaması gerçeğinden kaynaklanmaktadır.

Ayrıntılar: Puanlama kuralları ve sınıflandırma değerlendirmeleri

Terminolojiyi düzeltelim. Bir ikili sonuç ilgilenen ve bir olasılık tahmini sahip q = P ( Y = 1 ) ( 0 , 1 ) . Bunu biliyoruz P ( Y = 1 ) = η > 0.5 , ama örnek q ya da bilmiyor olabilir.y{0,1}q^=P^(Y=1)(0,1)P(Y=1)=η>0.5q^

Bir puanlama kuralı bir olasılık tahmini alan bir eşleme q ve bir sonuç y , kaybınaq^y

s:(q^,y)s(q^,y).

olanuygunbu göre beklenti en iyi olup olmadığını q = η . (Genellikle "minimize" anlamına gelen "Optimize", ancak bazı yazarlar çevirme işaretler ve bir puanlama kuralı maksimize etmek deneyin.) S olansıkı uyguno beklenti eniyilendirilmiş isesadecetarafından q = η .sq^=ηsq^=η

Normal olarak, değerlendirecek birçok tahminler ile q i ve sonuçlarını karşılık gelen y ı ve ortalama Bu beklenti tahmin etmek.sq^benyben

Şimdi, doğruluk nedir? Doğruluk, bir argüman olarak olasılıklı bir tahminde bulunmaz. Bu sınıflandırma alır y{ 0 , 1 }y^{0,1} ve bir sonuç:

bir:(y^,y)bir(y^,y)={1,y^=y0,y^y.

Bu nedenle, doğruluk bir puanlama kuralı değildir . Bu bir sınıflandırma değerlendirmesidir. (Bu yeni icat ettiğim bir terimdir, literatürde aramayın.)

Şimdi, tabii ki bizim gibi bir olasılık tahmini alabilir q ve bir sınıflandırma çevirmek y . Ancak bunu yapmak için, yukarıda belirtilen ek varsayımlara ihtiyacımız olacak. Örneğin, bir eşik θ kullanmak ve sınıflandırmak çok yaygındır :q^y^θ

y^(q^,θ): ={1,q^θ0,q^<θ.

θ=0.5q^benyben

q^q^y^=y^(q^,θ)q^

q^=ηθ=0.5q^(0,1)

y^q^

q^θθ=0.5q^=0.99q^θq^η

θ=0.2y=1y=0q^q^=0.25q^θ

Bu nedenle, doğruluk veya yanlış sınıflandırma kaybı yanıltıcı olabilir.

Buna ek olarak, doğruluk ve yanlış sınıflandırma kaybı olan sonuçların IID edilmez daha karmaşık durumlarda ek varsayımlar altında uygunsuz. Frank Harrell, onun blog yazısı içinde Sınıflandırma Doğruluğu ve Diğer süreksiz Yanlış Doğruluk Puanlama Kuralları Neden Olduğu Hasarın onlar olduğundan, bir misspecified modeline yol açacaktır doğruluğu veya yanlış sınıflandırma kaybı kullanarak bir kitabında bir örnek değinir değil doğru koşullu yordayacak tarafından optimize olasılık.

θ

Daha fazla bilgi için Neden sınıflandırma modellerini değerlendirmede doğruluk en iyi ölçü değildir? .

Alt çizgi

Doğruluk kullanmayın. Ne de yanlış sınıflandırma kaybı.

Nitpick: "katı" ile "katı"

"Katı" doğru puanlama kurallarından mı yoksa "katı" doğru puanlama kurallarından mı bahsetmeliyiz? "Katı", "puanlama kuralı" nı değil, "uygun" u değiştirir. ("Uygun puanlama kuralları" ve "kesinlikle doğru puanlama kuralları" vardır, ancak "katı puanlama kuralları" yoktur.) Bu nedenle, "kesinlikle" bir sıfat değil, bir sıfat değil ve "kesinlikle" kullanılmalıdır. Literatürde daha yaygın olduğu gibi, örneğin Tilmann Gneiting'in makaleleri.


Yayınınızın takip etmediğim birçok yönü var (veya sorduğum soru ile ilgili olmadığını hissediyorum), ancak "alıntıladığınız kağıda göre yanlış sınıflandırma kaybı bir puanlama kuralı değil" ile başlayalım. Formül makalede çok açık bir şekilde verilmiştir: L1 (1-q) = 1 [q <= 0.5] (zayıf biçimlendirme için affedin). Tüm pratik amaçlar için, herhangi bir olasılıklı tahmini ve onunla ilişkili sonucu doğrudan 0 veya 1 kaybıyla eşleyen bir adım fonksiyonudur. Dahası, 0.5 sadece adımın nerede meydana geldiğini kontrol eden bir parametredir; Bu “varsayımı” göremiyorum. Bu nasıl bir puanlama kuralı değildir?
Zyzzva

1
q

1
Alaka düzeyi yorumuna gelince, yanlış yoldan gelirse özür dilerim. Sorunun kapsamını, özellikle süreksiz / yanıltıcı / yanıltıcı değil, uygun ve uygunsuz olmak üzere odaklamaya çalıştım. Sağladığınız bağlantılar hakkında çok bilgi sahibiyim ve yanlış sınıflandırma maliyetleri veya alt satırdaki yorumlarınızla ilgili hiçbir sorunum yok. Sadece "doğruluk uygun değil" ifadesinin daha titiz bir açıklamasını arıyorum. Bunu benimle tartışmak ve ayrıntılı düşüncelerinizi paylaşmak için zaman ayırdığınız için teşekkür ederiz.
Zyzzva

1
Daha fazla düşünmeden sonra, yaptığınız noktayı daha net bir şekilde kavradığımı düşünüyorum. 0.6'daki adımla aynı adım işlevini düşünürsek (0.6 eşiğinde sınıflandırmaya karşılık gelir), puanlama kuralı uygun değildir, çünkü beklenen kayıp artık aralıktaki n için q = n tahmini ile en aza indirilmez [ 0.5, 0.6]. Daha genel olarak, 0.5 dışındaki her eşikte uygunsuz olacaktır ve genellikle uygulamada belirttiğiniz gibi yanlış sınıflandırmanın asimetrik maliyetleri nedeniyle diğer eşikleri kullanmak istiyoruz.
Zyzzva

1
0,5 eşiği haklı olsa bile, doğruluğun olasılıkları değerlendirmek için açıkça kötü bir ölçüm olduğu konusunda hemfikirim. Yaptığım orijinal yazının sonunda çok şey söyledim, ancak bu sorun yaşadığım belirli ayrıntıların temizlenmesine yardımcı oldu - yani, yanlışlığın ikili sonuçlara uygun olduğunu gösteren bir şeyi uzlaştırmak (sadece gerçek olduğunda) 0,5 eşikteki çok özel bir durum için geçerlidir) görünüşte siyah-beyaz ifadesiyle "doğruluk yanlıştır" çok fazla görüyorum. Yardımınız ve sabrınız için teşekkürler.
Zyzzva
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.