İstatistiksel anlamlılık için iki sınıflandırıcı doğruluk sonucunun t-testi ile karşılaştırılması


17

İki sınıflandırıcının doğruluğunu istatistiksel anlamlılık açısından karşılaştırmak istiyorum. Her iki sınıflandırıcı da aynı veri kümesinde çalıştırılır. Bu beni okuduğumdan bir örnek t-testi kullanmam gerektiğine inanıyor .

Örneğin:

Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000

Kullanılacak doğru test bu mu? Öyleyse, sınıflandırıcı arasındaki doğruluk farkının önemli olup olmadığını nasıl hesaplayabilirim?

Yoksa başka bir test mi kullanmalıyım?

Yanıtlar:


14

Sınıflandırıcıları yalnızca bir kez eğitirseniz McNemar'ın testini tercih ederim. David Barber , benim için oldukça zarif görünen, ancak yaygın olarak kullanılmayan ( kitabında da belirtilmiştir ) oldukça düzgün bir Bayes testi önermektedir .

Sadece eklemek için, Peter Flom'un dediği gibi, cevap neredeyse kesinlikle "evet" dir, sadece performans ve numunenin boyutuna bakarak (alıntılanan rakamları eğitim seti performansından ziyade test seti performansıdır).

Bu arada Japkowicz ve Shah'ın "Öğrenme Algoritmalarını Değerlendirme: Bir Sınıflandırma Perspektifi" hakkında yeni bir kitabı var, ben okumadım, ancak bu tür sorunlar için yararlı bir referans gibi görünüyor.


1
Bu sonuçları almak için 10 kat çapraz doğrulama kullanıyorum. Bu aslında farklı veri kümeleri oldukları anlamına mı geliyor? Çapraz doğrulamada test / tren için bölünen toplam boyut budur
Chris

4
Her kat için doğruluk bağımsız olmayacak, bu da çoğu istatistiksel testin varsayımlarını ihlal edecek, ancak muhtemelen büyük bir sorun olmayacak. Sık sık 100 rastgele eğitim / test bölümü kullanıyorum ve daha sonra Wilcoxon eşleştirilmiş imzalı sıralama testini kullanıyorum (her iki sınıflandırıcı için de aynı rastgele bölünmeleri kullanıyorum). Sık sık küçük veri kümeleri kullandığım için bu tür bir testi tercih ederim (aşırı sığdırma ile ilgileniyorum gibi), bu nedenle rasgele bölünmeler arasındaki değişkenlik, sınıflandırıcılar arasındaki performans farkıyla karşılaştırılabilir olma eğilimindedir.
Dikran Marsupial

2
(+1) Wilcoxon eşli imzalı rütbe testi için (ve kitabın bağlantısı ... eğer toc sözlerini yerine getirebilirse, bu kitap tüm ML'lerin mutlaka okunması gerekir: O)
steffen

3
Ayrıca sınıflandırıcıları karşılaştırmak için imzalı sıra testleri ve eşleştirilmiş t-testleri kullandım. Ancak bu amaç için tek taraflı bir test kullanarak rapor her zaman gözden geçirenler zor bir zaman olsun yani iki taraflı testleri kullanmaya döndü!
BGreene

2
OP'nin sorunun aslında çapraz geçerlilikle ilgili olduğunu açıkladığı göz önüne alındığında, cevabınızı bu konuyu kapsayacak şekilde genişletmeyi düşünür müsünüz? O zaman Q'yu düzenleyebiliriz. Bu önemli bir konudur ve birkaç ilişkili (hatta yinelenen) soru vardır, ancak hiçbirinin iyi bir cevabı yoktur. Yukarıdaki bir yorumda, CV tahminleri üzerinde eşleştirilmiş bir test kullanmanızı ve burada bağımsızlığın olmamasının büyük bir sorun olduğunu düşünmediğinizi söylemeniz önerilir. Neden olmasın? Bana büyük bir sorun gibi geliyor!
amip diyor Reinstate Monica

4

Sana, hiçbir şey çalıştırmadan bile, farkın son derece istatistiksel olarak anlamlı olacağını söyleyebilirim. IOTT'yi geçer (interoküler travma testi - sizi gözlerin arasına vurur).

Bir test yapmak istiyorsanız, bunu iki oranın bir testi olarak yapabilirsiniz - bu iki örnek t-testi ile yapılabilir.

Yine de bileşenlerine "doğruluğu" bölmek isteyebilirsiniz; duyarlılık ve özgüllük veya yanlış pozitif ve yanlış negatif. Birçok uygulamada, farklı hataların maliyeti oldukça farklıdır.


Kabul edildi - bu açıkça önemli olacak. Nitpick: İki oranı (yaklaşık olarak) test etmek için bir testi kullanırsınız - bu, n arttıkça binom dağılımının normale yakınlaşmasıyla ilgilidir . Bkz. Bölüm 5.2 en.wikipedia.org/wiki/Statistic_hypothesis_testingzn
Makro

İkinci düşüncede, bir testi CLT tarafından asimptotik olarak geçerli olabilir, ancak z- testinin genellikle burada kullanılmasının bir nedeni olmalıdır . tz
Makro

2
Soruma verdiğim doğruluk yüzdesi sadece bir örnektir.
Chris

0

Doğruluk, bu durumda, numunelerin oranı doğru bir şekilde sınıflandırıldığından, iki oranlı bir sistemle ilgili hipotez testini uygulayabiliriz.

Let p 1 ve p 2 , sırasıyla sınıflandırıcılar 1 ve 2'de elde edilen doğruluk olabilir ve n, örnek sayısı olabilir. Sınıf 1 ve 2'de doğru bir şekilde sınıflandırılan örnek sayısı, sırasıyla x 1 ve x 2'dir .p^1p^2nx1x2

p^1=x1/n,p^2=x2/n

Test istatistiği

Z=p^1p^22p^(1p^)/n nerede p^=(x1+x2)/2n

p2p1

  • H0:p1=p2 (her ikisinin de eşit olduğunu belirten sıfır hipotez)
  • Ha:p1<p2 (yenisinin mevcut olandan daha iyi olduğunu iddia eden alternatif hipotez)

Reddetme bölgesi

Z<zαH0Ha

zααz0.5=1.645Z<1.645 is true, then we could say with 95% confidence level (1α) that classifier 2 is more accurate than classifier 1.

References:

  1. R. Johnson and J. Freund, Miller and Freund’s Probability and Statistics for Engineers, 8th Ed. Prentice Hall International, 2011. (Primary source)
  2. Test of Hypothesis-Concise Formula Summary. (Adopted from [1])

Shouldn't p^ be the average of p^1 and p^2? So the denominator should be 2n in p^=(x1+x2)/2n.
Shiva Tp

Though I agree that a test for proportions could be used, there is nothing in the original question that suggests a one-sided test is appropriate. Moreover, "we could say with 95% confidence" is a common misinterpretation. See e.g. here: metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf
Frans Rodenburg

@ShivaTp Indeed. Thanks for pointing the much needed typo correction. Edit confirmed.
Ébe Isaac
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.