Çok etiketli verilerin doğruluğu için ölçü nedir?


25

KnownLabel Matrix ve PredictedLabel matrisinin verildiği bir senaryo düşünün. PredictedLabel matrisinin iyiliğini KnownLabel Matrisine göre ölçmek istiyorum.

Ancak buradaki zorluk, BilinenLabel Matrix'in yalnızca bir tane 1 ve diğer birkaç satırda çok sayıda 1 olması (bu örnek çoklu etiketli). KnownLabel Matrix örneği aşağıda verilmiştir.

A =[1 0 0 0
    0 1 0 0
    0 1 1 0
    0 0 1 1
    0 1 1 1]

Yukarıdaki matriste, veri örneği 1 ve 2, tek etiket verisi, veri örneği 3 ve 4, iki etiket verisi ve veri örneği 5, üç etiket verisidir.

Şimdi bir algoritma kullanarak veri örneği PredictedLabel Matrix var.

PredictedLabel Matrix'in BilinenLabel Matrix'e karşı iyiliğini ölçmek için kullanılabilecek çeşitli önlemleri bilmek istiyorum.

Frobeinus normlarının aralarındaki farkı önlemlerden biri olarak düşünebilirim. Ancak doğruluk gibi bir ölçü arıyorum(=Correctly_predicted_instancetotal_instance)

Burada birden fazla veri örneği için tanımlayabiliyoruz ?Correctly_predicted


5
(+1) Sidenote: Sorularınızın çoğunda cevap kabul etmemeniz için belirli bir neden var mı? Verilen cevap probleminizi çözemediğinde neden bir yorum göndermediniz? Örneğin: stats.stackexchange.com/questions/9947/…
steffen

Yanıtlar:


23

(1) güzel bir genel bakış sunar:

görüntü tanımını buraya girin

görüntü tanımını buraya girin

Vikipedi sayfası n çok etiketli sınıflandırma yanı değerlendirme ölçümlerimize bir bölüm içeriyor.

Çoklu etiket ayarında doğruluğun belirsiz olduğu konusunda bir uyarı eklerim: tam eşleşme oranına veya Hamming skoruna atıfta bulunabilir (bu yazıya bakınız ). Ne yazık ki, birçok makale "doğruluk" terimini kullanmaktadır.


(1) Sorower, Mohammad S. " Çok etiketli öğrenmeye yönelik algoritmalar üzerine bir literatür taraması. " Oregon State University, Corvallis (2010).


2
Bu tanımlar Precision ve Recall için genel tanımlara aykırı mı? Hassasiyetin TP + FP ile bölünmesi gerektiğini ve hatırlamanın TP + FN ile bölmesi gerektiğini her zaman okudum (iyi anlaşılırsa burada önerilen tanımlar bunun tam tersini yapar).
tomasyany

Hayır, kağıttaki tanımlar doğru. Burada için bir etiket kesin referans vektörüdür inci numune ve , etiket tahmin edilen bir dizi bir çok etiketli sınıflandırıcı belirtmektedir. Belki de yanlışlıkla ve karıştırdınız.YiY={0,1}kiZi=h(xi)={0,1}khYiZi anlamlarını .
constt

için accuracyölçü, nasıl zarif nerede payda davalarını mı |Y + Z| == 0?
ihadanny

3
@tomasyany, çevrilmiş gibi görünen metin tanımlarına (formüllere değil) atıfta bulunur.
Narfanar

Ve bu AP tanımı daha çok mAP (AP anlamına geliyor) gibi görünüyor, değil mi? 'Doğruluk' olarak adlandırılan, ortalama IoU'dur. Terimler genel olarak biraz kafa karıştırıcı.
Narfanar


3

Correctly PredictedÖnerilen etiket kümesi ile beklenen etiket kümesi arasındaki kesişmedir. Total InstancesYukarıdaki setlerin birliğidir (yinelenen sayım yoktur).

Bu yüzden sınıfları tahmin ettiğiniz A, G, Eve test senaryosunun E, A, H, Pen doğru sonuç verdiğin bir örnek verilmişAccuracy = Intersection{(A,G,E), (E,A,H,P)} / Union{(A,G,E), (E,A,H,P)} = 2 / 5

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.