Erik'in cevabını Michael'ın cevabına uygulamak :
Performans ölçüsünü seçerken Erik'in ifade ettiği düşünceyi de yapabilirsiniz.
Yanıtladıkları sorularla bu tür farklı önlemlere atıfta bulunmayı yararlı buluyorum (burada en tanıdığım tıbbi teşhis dilinde - ancak belki hastayı metin ve hastalık yerine spam ;-) ile değiştirebilirsiniz):
Duyarlılık: hasta gerçekten hastalığa sahipse, sınıflandırıcı bunu fark etme olasılığı nedir?
Özgüllük: Hastanın gerçekten hastalığı olmadığı göz önüne alındığında, sınıflandırıcının bunu gerçekleştirme olasılığı nedir?
Pozitif öngörücü değer: sınıflandırıcı hastanın hastalıklı olduğunu iddia ettiğinde, hasta gerçekten hastalığa yakalanma olasılığı nedir?
Negatif prediktif değer: sınıflandırıcı hastanın hastalıklı olmadığını iddia ettiğinde, hasta gerçekten hastalığa yakalanma ihtimali nedir?
Gördüğünüz gibi, öngörücü değerler doktorların ve hastaların gerçekten ilgilendiği şeydir. Bununla birlikte, neredeyse herkes sınıflandırıcısını hassasiyet ve özgüllük ile karakterize eder. Bunun nedeni, öngörücü değerlerin hastalığın prevalansını hesaba katması gerektiğidir ve bu, farklı hastalar için büyük ölçüde değişebilir (büyüklük sıraları!).
Sorunuz için daha fazla konu:
Eminim endişelenme hakkın vardır.
Erik'in her iki senaryosunu da bir örnek olarak ele alalım:
İşte bağımsız test örnekleri:
> binom.test (x = 810, n = 1000, p = 0.8)
Exact binomial test
data: 810 and 1000
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8
95 percent confidence interval:
0.7842863 0.8338735
sample estimates:
probability of success
0.81
(sonuçlar farklı bir şekilde olsa bile, iki sınıflandırıcının yayınlanacağını varsayarak bu testin iki taraflı olduğunu unutmayın.)
Mümkün olan en iyi durum: Eşleştirilmiş test ve yeni sınıflandırıcı, eskisinin doğru olduğu tüm örnekler için de artı 10 tane daha:
> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
newclassif
oldclassif correct wrong
correct 800 0
wrong 10 190
> mcnemar.test (oldclassif, newclassif)
McNemar's Chi-squared test with continuity correction
data: oldclassif and newclassif
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427
( 1000'den 10'dan fazla örnek iki sınıflandırıcı tarafından farklı şekilde tahmin edildiği sürece p değeri büyülü 0.05'in altında kalır ).
P-değerleri yanlış soruya doğru cevap olsa bile, bunun biraz sıkı bir yer olduğuna dair bir işaret vardır.
Bununla birlikte, olağan bilimsel uygulama dikkate alındığında, bilinmeyen (yayınlanmamış) sayıda yeni özellik test edildi ve sadece biraz daha iyi çalışan özellik yayınlandı, yer daha da sıkılaşıyor. Ve sonra,% 80 sınıflandırıcı sadece% 79 klasifikatörün halefi olabilir ...
Almanca okumaktan hoşlanıyorsanız, Beck-Bornhold ve Dubben'in gerçekten güzel kitapları var. Doğru hatırlıyorsam, Mit an Wahrscheinlichkeit grenzender Sicherheit'in bu problemler hakkında çok güzel bir tartışması var. (İngilizce baskısı olup olmadığını bilmiyorum, başlığın oldukça gerçek bir çevirisi "Olasılıkla sınırlıdır")