Hassasiyet ve özgüllüğü birleştiren sınıflandırıcı performans ölçüsü mü?


9

Birden fazla sınıflandırıcı kullanarak sınıflandırma yaptığım 2 sınıf etiketli veri var. Ve veri kümeleri dengelidir. Sınıflandırıcıların performansını değerlendirirken, sınıflandırıcının sadece gerçek pozitifleri değil, aynı zamanda gerçek negatifleri de belirlemede ne kadar doğru olduğunu göz önünde bulundurmam gerekir. Bu nedenle, doğruluk kullanırsam ve sınıflandırıcı pozitiflere karşı önyargılıysa ve her şeyi pozitif olarak sınıflandırırsa, herhangi bir gerçek negatifi sınıflandırmada başarısız olsa bile yaklaşık% 50 doğruluk elde edeceğim. Bu özellik, yalnızca bir sınıfa odaklandığı için ve daha sonra F1 puanına duyarlılık ve geri çağırma için genişletilmiştir. (Bu makaleden bile anladığım budur, örneğin " Doğruluk Ötesi, F-skoru ve ROC: Performans Değerlendirmesi için Ayrımcı Bir Önlemler Ailesi ").

Bu nedenle, bu değerleri en üst düzeye çıkarmayı hedeflediğim her sınıf için sınıflandırıcının nasıl performans gösterdiğini görmek için duyarlılık ve özgüllüğü (TPR ve TNR) kullanabilirim.

Sorum şu: Bu iki değeri de anlamlı bir ölçüde birleştiren bir ölçü arıyorum . Bu makalede verilen önlemleri inceledim, ancak önemsiz olduğunu gördüm. Ve anlayışım temelinde, neden F-puanı gibi bir şey uygulayamayacağımızı merak ediyordum, ancak hassasiyet ve hatırlama kullanmak yerine hassasiyet ve özgüllük kullanacağım? Yani formül

Performans Ölçümüm=2*duyarlılık*özgüllükduyarlılık+özgüllük
ve amacım bu tedbiri maksimuma çıkarmak. Çok temsili olduğunu düşünüyorum. Benzer bir formül zaten var mı? Ve bu mantıklı mı yoksa matematiksel olarak da sağlam mı?

Yanıtlar:


1

Dikkate almanız gereken herhangi bir belirli veya tek bir önlem olmayabilir.

Son kez olasılıksal sınıflandırma yaptığımda bir R paketi ROCR ve Yanlış Pozitifler ve Yanlış Negatifler için açık maliyet değerleri vardı.

0 ile 1 arasındaki tüm kesme noktalarını dikkate aldım ve bu kesme noktasını seçerken beklenen maliyet gibi birçok önlem kullandım. Tabii ki, doğruluk sınıflandırmasının genel ölçüsü için zaten AUC ölçümüm vardı. Ama benim için tek olasılık bu değildi.

FP ve FN vakalarının değerleri kendi modelinizin dışında olmalıdır, belki bunlar bazı uzmanlar tarafından sağlanıyor olabilir?

Örneğin, müşteri karmaşası analizinde, müşterinin karmaşalı olmadığını yanlış bir şekilde ortaya çıkarmak daha pahalı olabilir, ancak bunları doğru grupları hedeflemek için kesin bir gerekçe olmaksızın hizmetlerin fiyatlarında genel bir düşüş vermenin pahalı olacağı da olabilir.

-Analyst


Aslında benim durumum için bu biraz benzer. Çünkü FP ve FN vakaları benim modelimde pahalıya mal olacak. Sonunda "birden fazla önlem kullanarak" önerdiğinize benzer bir şey yaptım. Her sınıf etiketi için F-puanını hesapladım ve her iki bu değeri kullandığım modelleri değerlendirmek için, karı hesaplamak ve FP ve FN vakalarından kaynaklanan zararı çıkarmak için kesinlik (her iki sınıf için) kullanan bazı maliyet işlevleriyle birlikte değerlendirdim.
Kalaji

3

Sınıflandırma doğruluğu, duyarlılığı, özgüllüğü ve bunların basit kombinasyonları uygunsuz puanlama kurallarıdır. Yani, sahte bir modelle optimize edilirler. Bunları kullanmak yanlış özellikleri seçmenizi, yanlış ağırlıklar vermenizi ve en düşük kararları vermenizi sağlayacaktır. Kararların yetersiz olmasının birçok yolundan biri, tahmin edilen olasılıklar bu önlemlerin kullanılmasıyla ima edilen eşiğe yakın olduğunda elde ettiğiniz yanlış güvendir. Kısacası, yanlış gidebilecek her şey bu önlemlerle yanlış gidiyor. Bunları iyi takılmış iki modeli bile karşılaştırmak için kullanmak sizi yanlış yönlendirir.


1
Oluşturduğunuz herhangi bir modelin sizin de bahsettiğiniz gibi bir "sahte model" olduğunu kabul ediyorum. Ama yine de kalitesini değerlendirmek, sonunda bir model seçmek için bir ölçüme ihtiyacım var. Özelliklerimin zaten seçilmiş olduğunu varsayarsak (farklı özellik kümelerine sahip birden çok veri kümesini deneyerek) ve sınıflandırıcılarımın verileri geçip geçmediğini belirlemek için 5 kat çapraz doğrulama kullanıyorum, bu basit "puanlama kuralları" en yaygın literatür. O zaman başka hangi önlemleri önerirsiniz? Önlemlerin çoğu LR +/-, ROC ve AUC dahil bu değerlerin kombinasyonlarına dayanmaktadır.
Kalaji

Her şeyden önce, 5 katlı CV'de kullanılan 5 model uyarının her biri için tüm keşif / modelleme adımlarını sıfırdan tekrarlamaya dikkat ediyor musunuz? Altın standart kalite ölçüsü log olasılığı ve ondan türetilmiş miktarlardır.R,2ve sapma. İkili içinYbu, logaritmik olasılık skorlama kuralına yol açar. Bu durumda, başka bir uygun skor olan Brier skorunu da kullanabilirsiniz (tahmin edilen olasılıklarda ortalama kare hatası).
Frank Harrell

Benim okumaya dayanarak bu, modellerimin ayrık değerler yerine olasılıklar üretmesi durumunda geçerlidir (örneğin, bir örneğin 0 veya 1 çıkışı yerine sınıf 0 veya 1'e ait olma olasılığı). Ve bunun, bunun sınıflandırıcılar uygulamasıyla ilgisi vardı, örneğin bir Naive Bayes sınıflandırıcısına uygulanır, ancak 1-NN sınıflandırıcısına uygulanmaz. Sınıflandırıcıları uygulamadığımı fark ettim, modellerimi oluşturmak için Weka'da bazı sınıflandırıcılar kullanıyorum. Belki biraz kafam karıştı. Teşekkürler.
Kalaji

1
Kullandığınız yöntem olasılık vermiyorsa başka bir yöntem bulmanızı öneririm.
Frank Harrell

Gerçek doğruluk maliyeti ile hassasiyet (orijinal gönderi için geçerli değildir) arasında iyi anlaşılmış farklılıklar varsa, bunları neden kullanmaktan kaçınasınız? Önyargılı bir çapraz entropi hatası tercih edilebilir mi (örneğin, (1-c) * log (1-p) teriminin cezası iki katına çıkar?
Max Candocia
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.