F-ölçüm değerleri nasıl yorumlanır?


41

F-ölçüm değerleri arasındaki farkı nasıl yorumlayacağımı bilmek istiyorum. F-ölçüsünün hassasiyet ve geri çağırma arasında dengeli bir ortalama olduğunu biliyorum, ancak F-ölçülerindeki bir farkın pratik anlamını soruyorum.

Örneğin, eğer bir C1 sınıflandırıcısı 0,4 kesinliği ve bir diğer 8 sınıflandırıcısı C2 0,8 kesinliğine sahipse, C2'nin C1 ile karşılaştırıldığında test örneklerinin çiftini doğru şekilde sınıflandırdığını söyleyebiliriz. Bununla birlikte, bir C sınıfı sınıflandırıcısının belirli bir sınıf için F değeri 0.4, diğer C sınıfı sınıflandırıcısı C2'nin 0.8 f değeri varsa, 2 sınıflandırıcının performansındaki fark hakkında ne söyleyebiliriz? C2'nin X'i daha fazla örnek olarak C1'e göre sınıflandırdığını söyleyebilir miyiz?


2
F-ölçüsü hem hassasiyetin hem de hatırlamanın bir işlevi olduğundan çok fazla şey söyleyebileceğinizden emin değilim: en.wikipedia.org/wiki/F1_score . Yine de matematiği yapabilir ve bir tanesini (hassas veya hatırlama) sabit tutabilir ve diğeri hakkında bir şeyler söyleyebilirsiniz.
Nick,

Yanıtlar:


41

F ölçüsünün sezgisel bir anlamını düşünemiyorum, çünkü bu sadece birleşik bir ölçü. F-mesure'den daha sezgisel olan elbette hassasiyet ve hatırlamadır.

Ancak iki değer kullanarak, bir algoritmanın diğerinden üstün olup olmadığını genellikle belirleyemeyiz. Örneğin, bir algoritma diğerlerinden daha yüksek hassasiyete sahip ancak daha düşük hatırlama içeriyorsa, hangi algoritmanın daha iyi olduğunu nasıl söyleyebilirsiniz?

Aklında belirli bir hedef varsa 'Hassas kraldır. Hatırlama umrumda değil, o zaman problem yok. Daha yüksek hassasiyet daha iyidir. Ancak, bu kadar güçlü bir hedefiniz yoksa, birleşik bir metrik isteyeceksiniz. Bu F ölçüsü. Bunu kullanarak, bazı hassasiyetleri ve bazı hatırlamaları karşılaştıracaksınız.

ROC eğrisi genellikle F-ölçüsünü belirterek çizilir. ROC eğrileri de dahil olmak üzere birkaç önlem hakkında açıklama içerdiğinden bu makaleyi ilginç bulabilirsiniz: http://binf.gmu.edu/mmasso/ROC101.pdf


23

F1 puanının önemi senaryoya göre farklıdır. Hedef değişkenin ikili bir etiket olduğunu varsayalım.

  • Dengeli sınıf: Bu durumda, F1 puanı etkin bir şekilde göz ardı edilebilir, yanlış sınıflandırma oranı anahtardır.
  • Dengesiz sınıf, ancak her iki sınıf da önemlidir: Sınıf dağılımı oldukça eğri ise (80:20 veya 90:10 gibi), bir sınıflayıcı yalnızca çoğunluk sınıfını seçerek düşük bir yanlış sınıflandırma oranı alabilir. Böyle bir durumda, her iki sınıfta da yüksek F1 puanları alan sınıflandırıcıyı ve düşük yanlış sınıflandırma oranını seçerdim. Düşük F1 puanları alan bir sınıflandırıcı gözden kaçırılmalıdır.
  • Dengesiz sınıf, ancak bir sınıf diğerinden daha önemliyse. Örneğin, Sahtekarlık tespitinde, sahtekar olmayanı etiketlemenin aksine, bir örneği sahtekar olarak doğru bir şekilde etiketlemek daha önemlidir. Bu durumda, F1 puanının iyi olduğu sınıflandırıcıyı sadece önemli sınıfta seçerdim . F1 puanının sınıf başına uygun olduğunu hatırlayın.

9

F-ölçüsünün sezgisel bir anlamı var. Sınıflandırıcınızın ne kadar hassas olduğunu (ne kadar doğru şekilde sınıflandırdığını) ve ne kadar sağlam olduğunu (önemli sayıda örneği kaçırmaz) söyler.

Yüksek hassasiyetli fakat düşük geri çağırma ile, sınıflandırıcı son derece doğrudur, ancak sınıflandırılması zor olan önemli sayıda örneği kaçırır. Bu çok kullanışlı değil.

Bu histograma bir göz atın. görüntü tanımını buraya girinOrijinal amacını görmezden gelin.

Sağa doğru, yüksek hassasiyet elde edersiniz, ancak düşük geri çağırma. Yalnızca puanı 0.9 olan örnekleri seçersem, sınıflandırılmış örneklerim son derece hassas olacak, ancak çok sayıda örneği kaçıracağım. Deneyler, buradaki tatlı noktanın, F-ölçüsünün 0.87 olduğu 0.76 civarında olduğunu göstermektedir.


5

F-ölçüsü hassasiyetinizin ve hatırlamanızın harmonik ortalamasıdır. Çoğu durumda, hassasiyetle hatırlama arasında bir denge kurarsınız. Sınıflandırıcınızı bir tanesini arttırmak ve diğerini rahatsız etmek için optimize ederseniz, harmonik ortalama hızla düşer. Bununla birlikte, hem hassasiyet hem de hatırlamanın eşit olması en iyisidir.

Sınıflandırıcılarınız için 0,4 ve 0,8'lik F ölçüleri göz önüne alındığında, bu değerlerin hatırlamaya karşı hassasiyet ölçülürken elde edilen maksimum değerlerde gerçekleşmesini bekleyebilirsiniz.

Görsel referans için Wikipedia'dan şu şekle bir bakın :

görüntü tanımını buraya girin

F-ölçüsü H , A ve B ise hatırlama ve hassasiyettir. Birini artırabilirsin, sonra diğeri azalır.


"Çapraz Merdivenler" görselleştirmesini biraz daha basit buldum - benim için, A = B'nin eşitliği, en büyük H'yi daha sezgisel hale
getirdi

3

F ölçüsü formülü (F1, beta = 1), fiziğe paralel olarak yerleştirilmiş iki dirençten oluşan eşdeğer direnci veren formül ile aynıdır (faktör 2'yi unutmak).

Bu size olası bir yorum getirebilir ve hem elektronik hem de termal dirençleri düşünebilirsiniz. Bu benzetme, F-ölçüsünü paralel yerleştirilmiş hassasiyet ve hassasiyetten oluşan eşdeğer direnç olarak tanımlar.

F-ölçüsü için mümkün olan maksimum değer 1'dir ve siz ikisinden biri en kısa sürede direnci de kaybeder (yani, 1'in altında bir değer elde edersiniz). Bu niceliği ve dinamiğini daha iyi anlamak istiyorsanız, fizik olgusunu düşünün. Örneğin, F-ölçüsü <= maks (duyarlılık, hassasiyet) gibi görünüyor.


3

Fβ1/β2

P=TPTP+FP
R=TPTP+FN
α
α1RR+1PP.
αFββ2

1

Fβ=1/((β2/(β2+1))1/r+(1/(β2+1))1/p)
p F ββ2<1pFβ ).

0

F1 puanının en yakın sezgisel anlamı, hatırlama ve hassasiyetin ortalaması olarak algılanmaktadır. Sizin için temizleyelim:

Bir sınıflandırma görevinde, yüksek hassasiyete ve geri çağırmaya sahip bir sınıflandırıcı oluşturmayı planlıyor olabilirsiniz . Örneğin, bir kişinin dürüst olup olmadığını söyleyen bir sınıflandırıcı.

Kesinlik için, genellikle belirli bir grupta kaç dürüst insan olduğunu doğru bir şekilde söyleyebilirsiniz. Bu durumda, yüksek hassasiyete önem verirken, yalancı bir kişiyi dürüst fakat sıklıkla değil olarak yanlış sınıflandırabileceğinizi varsayarsınız. Başka bir deyişle, burada yalancı bir bütün olarak dürüstten tanımlamaya çalışıyorsunuz.

Ancak, hatırlamak için yalancı bir kişinin dürüst olduğunu düşünüyorsanız, gerçekten endişeleneceksiniz. Senin için, bu büyük bir kayıp ve büyük bir hata olacak ve bir daha yapmak istemezsin. Ayrıca dürüst birini yalancı olarak sınıflandırdıysanız sorun değil, ancak modeliniz asla yalancı birini dürüst olarak iddia etmemelidir. Başka bir deyişle, burada belirli bir sınıfa odaklanıyorsunuz ve bu konuda hata yapmamaya çalışıyorsunuz.

Şimdi, modelinizin (1) yalancı (dürüst) bir şekilde dürüstçe tanımlamasını (2) her iki sınıftaki her bir kişiyi tanımlamasını (geri çağırmayı) isteyin. Bu, her iki ölçümde de iyi performans gösterecek modeli seçeceğiniz anlamına gelir.

Siz model seçim kararınız, daha sonra her bir modeli iki ölçümün ortalamasına göre değerlendirmeye çalışacaktır. F-Score, bunu tanımlayabilecek en iyisidir. Şu formüle bir göz atalım:

Hatırlama: p = tp / (tp + fp)

Hatırlama: r = tp / (tp + fn)

F-puanı: fscore = 2 / (1 / r + 1 / p)

Gördüğünüz gibi yüksek hatırlama VE hassasiyet, daha yüksek F-skoru.


0

F1 puanının harmonik hassasiyet ve hatırlama anlamı olduğunu bilmek, aşağıda onlar hakkında biraz kısa.

Recall'ın yanlış negatifler hakkında daha fazla olduğunu söyleyebilirim .ie, Daha yüksek bir Recall'a sahip olmak daha az YANLIŞ NEGATİF olduğu anlamına gelir .

Recall=tptp+fn

Daha az FN veya Sıfır FN ne kadar çoksa, model tahmininiz gerçekten çok iyi.

Yüksek Hassasiyet anlamına gelirken, daha az YANLIŞ POZİTİFLER

Precision=tptp+fp

Aynı şekilde, Daha Az veya Sıfır Yanlış Pozitif, Model tahmininin gerçekten iyi olduğu anlamına gelir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.