Sınıflandırma sonuçlarının önemini test etmenin doğru yolu nedir

21

Birkaç farklı sınıflandırıcıyı eğitebileceğiniz veya birkaç farklı özellik çıkarma yöntemi kullanabileceğiniz birçok durum vardır. Literatürde yazarlar sıklıkla verinin bir rasgele bölmeleri kümesi (yani iki kat yuvalanmış çapraz doğrulama sonrasında) üzerinde ortalama sınıflandırma hatası verir ve bazen de bölmeler üzerindeki hata üzerinde değişiklikler yapar. Bununla birlikte, bu kendi başına bir sınıflandırıcının diğerinden önemli ölçüde daha iyi olduğunu söylemek için tek başına yeterli değildir. Buna birçok farklı yaklaşım gördüm - Ki-kare testleri, t-testi, post-hoc testi ile ANOVA.

İstatistiksel önemi belirlemek için hangi yöntem kullanılmalıdır? Bu sorunun altında yatan şey: Sınıflandırma puanlarının dağılımı hakkında ne gibi varsayımlarda bulunmalıyız?

classification statistical-significance

— tdc
kaynak

2

Örnek raporlar gönderebilir misiniz: "Buna çok farklı yaklaşımlar gördüm - Ki-kare testleri, t-testi, post-hoc testi ile ANOVA vb."? Bununla gerçekten ilgileniyorum.

— jb.

1

@jb Bundan bir göz atın: cmpe.boun.edu.tr/~ethem/i2ml/slides/v1-1/i2ml-chap14-v1-1.pdf

— Dov

9

@ Jb.'nin mükemmel cevabına ek olarak, bir sınıflandırıcının diğerinden önemli ölçüde daha iyi olup olmadığını belirlemek için aynı test setinde McNemar'ın testini kullanabileceğinizi ekleyeyim . Bu sadece sınıflandırma problemleri için işe yarayacaktır (McNemar'ın orijinal çalışması “dikotom bir özellik” olarak adlandırılır), sınıflandırıcıların doğru ya da yanlış, ortada boşluk kalmayacağı anlamına gelir.

— carlosdc
kaynak

Sınıflandırıcının ne zaman geçebileceği senaryoda? İçinde dediği gibi bilmiyor. O zaman hala McNemar'ın testini kullanabilir misin?

— S0rin

5

Sınıflandırma hatalarının dağılımı bir ikili dağılım olduğundan (ya yanlış sınıflandırma var ya da hiçbiri yok) --- Ki-kare kullanmanın mantıklı olmadığını söyleyebilirim.

Ayrıca sadece aynı veri kümelerinde çalışan sınıflandırıcıların etkinliklerinin karşılaştırılması mantıklıdır - 'Ücretsiz öğle yemeği teoremi yok', tüm modellerin tüm veri kümeleri üzerinde aynı ortalama verime sahip olduğunu, böylece hangi modelin daha iyi görüneceğini yalnızca hangi veri kümelerinin olduğuna bağlı olacağını belirtir. onları eğitmek için seçti http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization .

Veri seti D üzerinden A ve B modellerinin verimini karşılaştırıyorsanız, ortalama verim + ortalamanın bir seçim yapmak için yeterli olduğunu düşünüyorum.

Dahası, eğer birinin rezonansif verimi olan (ve birbirinden bağımsız olan) birçok modeli varsa, sadece en iyi modeli seçmek yerine topluluk modeli inşa etmeyi tercih ederim.

— jb.
kaynak

Ancak, tek bir sınıflandırıcı için, örneğin [0,1] aralığında olabilecek birtakım puan kümeleriyle (örneğin 100'den fazla MSE) bitirdiniz. Her koşunun sonucunu alıp analiz etmenin çok pahalı olacağını düşünüyorum.

— tdc

Evet. Ancak bu durumda, ortalama + stddev, birinin diğerinden önemli ölçüde daha iyi olup olmadığını test etmek için yeterlidir, tıpkı diğer ölçümlerde olduğu gibi.

— jb.

2

Çok emin değilim. Mean & stddev bir başlangıç için Gaussianity olduğunu varsayıyor ve ikinci olarak bu kaç karşılaştırma yapıldığını hesaba katmıyor (örn. Bonferroni düzeltmesi gerekebilir)

— tdc

1

Temel ölçüm teorisinde aynıdır. Bir mikrometremiz olduğunu varsayalım ve iki çubuğun aynı çapa sahip olup olmadığını kontrol etmek istiyoruz, her iki çubuğun da 100 ölçümünü alıyoruz ve ortalama + stddev'in çakışıp çakışmadığını kontrol ediyoruz. Her iki durumda da (çubuk ölçümü ve model metiği) sonuçların gauss dağılımını varsayıyoruz, yalnızca mantıklı argüman Merkezi limit teoremidir .

— jb.

3

Tom Dietterich'in "Denetimli Sınıflandırma Öğrenme Algoritmalarını Karşılaştırma İçin Yaklaşık İstatistiksel Testler" başlıklı makalesini tavsiye ediyorum. İşte makalenin CiteSeer'deki profili: http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 . Özetten: "Bu makale, bir öğrenme algoritmasının belirli bir öğrenme görevinde başka bir performans gösterip göstermediğini belirlemek için yaklaşık beş istatistiksel istatistiki incelemeyi incelemektedir. Bu testler, hiçbir fark bulunmadığında bir farkın yanlış tespit edilme ihtimalini belirlemek için deneysel olarak karşılaştırılır (tip I hatası ). ... McNemar'ın testinde, Düşük Tip I hatası olduğu gösterildi. ... "

— Eric Ringger
kaynak

2

IMHO, puanların dağılımı ile diğer veri türlerinin dağılımı arasında farklı olmamalıdır. temelde kontrol etmeniz gereken tek şey, verilerinizin normal dağılıp dağılmadığı ya da burada görülememesi . Dahası, bu soru ile başa çıkacak harika kitaplar var burada görüyorsunuz (kısaca: hepsi iki sınıflandırıcının sonucunun önemli ölçüde farklı olup olmadığını test ederler ve eğer yaparlarsa tek bir topluluk modelinde birleştirilebilirler)

— Dov
kaynak

Ben çok olasıdır düşünüyorum değil normalde dağıtılmak üzere. Her zamanki durumda puanlar pozitif olacak ve aralığın bir ucuna doğru eğilecektir (ölçüm olarak doğruluk veya hata kullanmanıza bağlı olarak 1 veya 0).

— tdc

@tdc: fonksiyonun bu dağılımının dağılımı (yanlış sınıflandırma sayısı) -> (bu yanlış sınıflandırma sayısına sahip modellerin sayısı) genellikle IMHO benzeri poisson disrtibution olur.

— jb.

@Dov: Hangi modelin önemli ölçüde daha iyi olduğunu (OP sorusu bu) test etmek ve farklı olup olmadıklarını test etmek oldukça farklı bir şey.

— jb.

@jb. Teşekkürler. ama daha iyi değil önemli ölçüde farklı

— demiştim

@Dov ilk bağlantınız koptu - nereye işaret etmesi gerektiğini söyleyemem.

— Tamzin Blake

2

Tüm durumlar için uygun tek bir test yoktur; Nathalie Japkowicz ve Mohak Shah, Cambridge University Press, 2011 tarafından "Öğrenme Algoritmalarını Değerlendirme" kitabını önerebilirim. Bu konuyla ilgili yaklaşık 400 sayfalık bir kitap yazılabilmesi, bunun doğrudan bir sorun olmadığını göstermektedir. Sık sık, çalışmamın gereksinimlerine gerçekten uygun bir test olmadığını buldum, bu nedenle hangi yöntemle olursa olsun, hangi yöntemle kullanıldığının avantajlarını ve dezavantajlarını iyi anlamak önemlidir.

Yaygın bir problem, büyük veri kümeleri için, pratik önemi olmayan bir etki büyüklüğüyle istatistiksel olarak anlamlı bir fark elde edilebileceğidir.

— Dikran Marsupial
kaynak