Farklı numune boyutlarına sahip farklı sınıflandırıcıların performansının ölçülmesi


12

Şu anda metinden ayıklanan çeşitli varlıklar üzerinde birkaç farklı sınıflandırıcılar kullanıyorum ve her ayrı sınıflandırıcının belirli bir veri kümesinde ne kadar iyi performans gösterdiğinin bir özeti olarak kesinlik / geri çağırma kullanıyorum.

Bu sınıflandırıcıların performansını benzer bir şekilde karşılaştırmanın anlamlı bir yolu olup olmadığını merak ediyorum, ancak aynı zamanda sınıflandırılan test verilerindeki her bir varlığın toplam sayılarını da dikkate alıyor mu?

Şu anda, performansın bir ölçüsü olarak hassas / hatırlama kullanıyorum, bu yüzden şöyle bir şey olabilir:

                    Precision Recall
Person classifier   65%       40%
Company classifier  98%       90%
Cheese classifier   10%       50%
Egg classifier      100%      100%

Ancak, bunları çalıştırdığım veri kümesi 100 bin kişi, 5 bin şirket, 500 peynir ve 1 yumurta içerebilir.

Yukarıdaki tabloya ekleyebileceğim, her bir öğenin toplam sayısını da dikkate alan özet bir istatistik var mı? Veya Egg sınıflandırıcısındaki% 100 prec / rec değerinin sadece 1 veri öğesiyle anlamlı olmayabileceği gerçeğini ölçmenin bir yolu var mı?

Diyelim ki yüzlerce sınıflandırıcı var, sanırım "Hangi sınıflandırıcılar düşük performans gösteriyor? Hangi sınıflandırıcılar düşük performans gösterip göstermediklerini söylemek için yeterli test verisi yok" gibi soruları cevaplamak için iyi bir yol arıyorum.


Farklı veri kümelerinde eğitilmiş farklı sınıflandırıcılarınız varsa, bunları anlamlı bir şekilde nasıl karşılaştırabilirsiniz? Elma ve portakal, tebeşir ve peynir akla geliyor. Ayrıca, çok sınıflı sınıflandırıcılarınız varsa, kesinlik ve geri çağırma nasıl hesaplanır? N = 1 bilmek bile yararlı değildir - dünyada sadece bir yumurta varsa, yumurta sınıflandırıcı iyidir.
Bull

Aynı veri kümeleri üzerinde eğitilmiş farklı sınıflandırıcılar, örneğin elma ve portakal hakkında bir belgemiz olduğunu biliyoruz, bu yüzden bahsettiği elma türünü belirlemek için bir elma sınıflandırıcısı ve portakal türünü belirlemek için turuncu bir sınıflandırıcı çalıştırıyoruz şeyden bahsediyor. Belgelerimiz elmalar hakkında% 99, portakallar hakkında% 1 ise ve her iki sınıflandırıcı da aynı ön / rec'a (karışıklık matrisine göre satırları / sütunları toplama) sahipse, her birinin miktarlarındaki farklılıkları dikkate alan sunabileceğimiz herhangi bir bilgi var mı? ? (hayır olabilir, olmayabilir, ki bu mutlu olurum)
Dave Challis

Yanıtlar:


5

İstatistiğin güven aralığına bakmanız gerekir. Bu, büyük ölçüde örneklem büyüklüğünün bir fonksiyonu olan istatistikteki ne kadar belirsizliğin ölçülmesine yardımcı olur.


2

Bence, büyük bir boyut farkı olduğunda performansı karşılaştırmak zordur. Bu bağlantıda, (lütfen http://en.wikipedia.org/wiki/Effect_size adresinden buradan kontrol edin ), farklı stratejiler görebilirsiniz.

Önerdiğim, varyansla ilgili olanı. Örneğin, sınıflandırıcının (% 100) ve kişi sınıflandırıcısının (% 65) performansını düşünün. Eski sınıflandırıcıyla yaptığınız minimum hata% 100'dür. Ancak, ikinci sınıflandırıcıyla yapabileceğiniz minimum hata 10e-5'tir.

Sınıflandırıcıyı karşılaştırmanın bir yolu , performansı ve değişkenliğini karşılaştırabileceğiniz bu Üçün Kuralını ( http://en.wikipedia.org/wiki/Rule_of_three_(statistics) aklınızda bulundurmaktır .

Diğer olasılık, Hassasiyet ve Geri Çağırma'nın bir kombinasyonu olan F-ölçüsüdür ve bir şekilde etki büyüklüğünden bağımsızdır.


2

Sınıftaki veri sayısı bazen supportsınıflandırıcı olarak adlandırılır . Bir p değeri, bazı testlere güvenmenize veya güvenmemenize izin verecek gibi, sonucunuza ne kadar güvenebileceğinizi söyler.

Kullanabileceğiniz bir yaklaşım, sadece kesinlik ve hatırlama değil, aynı zamanda gerçek pozitif oran, yanlış pozitif oran, özgüllük, duyarlılık, pozitif olasılık, negatif olabilirlik, vb. Gibi çeşitli sınıflandırıcı performans ölçümlerini hesaplamak ve bunların birbirleriyle tutarlı olup olmadığını görmektir. . Önlemlerden biri azami (% 100) ve diğeri geçmezse, çoğu zaman, tecrübelerime göre, bir şeyin yanlış gittiğinin göstergesidir (örneğin, zayıf destek, önemsiz sınıflandırıcı, önyargılı sınıflandırıcı vb.). Bkz bu sınıflandırıcı performansı önlemlerin bir listesi için.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.