Şu anda metinden ayıklanan çeşitli varlıklar üzerinde birkaç farklı sınıflandırıcılar kullanıyorum ve her ayrı sınıflandırıcının belirli bir veri kümesinde ne kadar iyi performans gösterdiğinin bir özeti olarak kesinlik / geri çağırma kullanıyorum.
Bu sınıflandırıcıların performansını benzer bir şekilde karşılaştırmanın anlamlı bir yolu olup olmadığını merak ediyorum, ancak aynı zamanda sınıflandırılan test verilerindeki her bir varlığın toplam sayılarını da dikkate alıyor mu?
Şu anda, performansın bir ölçüsü olarak hassas / hatırlama kullanıyorum, bu yüzden şöyle bir şey olabilir:
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
Ancak, bunları çalıştırdığım veri kümesi 100 bin kişi, 5 bin şirket, 500 peynir ve 1 yumurta içerebilir.
Yukarıdaki tabloya ekleyebileceğim, her bir öğenin toplam sayısını da dikkate alan özet bir istatistik var mı? Veya Egg sınıflandırıcısındaki% 100 prec / rec değerinin sadece 1 veri öğesiyle anlamlı olmayabileceği gerçeğini ölçmenin bir yolu var mı?
Diyelim ki yüzlerce sınıflandırıcı var, sanırım "Hangi sınıflandırıcılar düşük performans gösteriyor? Hangi sınıflandırıcılar düşük performans gösterip göstermediklerini söylemek için yeterli test verisi yok" gibi soruları cevaplamak için iyi bir yol arıyorum.