Bir veri kümesinde beklenen en iyi performans


9

Diyelim ki bir sınıflandırma gibi basit bir makine öğrenme problemim var. Görme veya ses tanıma konusunda bazı ölçütlerle, ben, bir insan olarak, çok iyi bir sınıflandırıcıyız. Bu nedenle bir sınıflandırıcının ne kadar iyi olabileceğine dair bir sezgim var.

Ancak çok fazla veriyle bir nokta, eğittiğim sınıflandırıcının ne kadar iyi olduğunu bilmem . Bu, kişisel olarak çok iyi bir sınıflandırıcı olmadığım verilerdir (örneğin, bir kişinin ruh halini EEG verilerinden sınıflandırın). Sorunumun ne kadar zor olduğuna dair bir sezgi almak gerçekten mümkün değil.

Şimdi, eğer bir makine öğrenimi problemiyle karşılaşırsam, ne kadar iyi olabileceğimi öğrenmek istiyorum. Buna ilkeli yaklaşımlar var mı? Bunu nasıl yapardın?

Veriler görselleştirilsin mi? Basit modellerle mi başlıyorsunuz? Çok karmaşık modellerle başlayın ve fazla uygun olup olmadığımı görün? Bu soruya cevap vermek istiyorsan ne arıyorsun? Ne zaman denemeyi bırakıyorsun?

Yanıtlar:


6

Bunun bir cevap olarak sayılıp sayılmadığını bilmiyorum ...

Bu sizi gece ayakta tutan tek sorundur. Daha iyi bir model oluşturabilir misiniz? Phd-comics güzel özetliyor (ben çizgi roman yüklemek için izin olup olmadığını bilmiyorum, bu yüzden sadece onları bağladı)

Makine Öğrenimi yarışmalarına katılarak kazandığım kişisel deneyimlerime göre, işte size bir kural.

Size bir sınıflandırma görevi verildiğini düşünün. Oturun, soruna nasıl yaklaşacağınızı bir saat veya daha az beyin fırtınası yapın ve bu alandaki en son teknolojiye göz atın. Bu araştırmaya dayalı, tercihen çok fazla parametre ayarı yapmadan kararlı olduğu bilinen bir model oluşturun. Sonuçta elde edilen performans, elde edilebilecek maksimum performansın kabaca yaklaşık% 80'i olacaktır.

Bu kural, optimizasyon için de geçerli olan Pareto prensibine dayanmaktadır . Bir sorun göz önüne alındığında, makul hızlı bir şekilde iyi performans gösteren bir çözüm oluşturabilirsiniz, ancak bu noktadan itibaren iyileşmenin zaman çabasına oranı hızla düşer.

Bazı son kelimeler: Yeni sınıflandırma algoritmaları hakkında makaleler okuduğumda, yazarların yeni ırklarını bu tür "pareto-optimize" yaklaşımlarla karşılaştırmasını bekliyorum, yani onların en son teknolojiyi kullanmak için makul bir zaman harcamasını bekliyorum (bazıları az çok parametre optimizasyonu gerektirir). Ne yazık ki, çoğu bunu yapmaz.


0

Geleneksel yöntem ROC'yi ve altındaki alanı (AUC) dikkate almaktır. Bu yaklaşımın ardındaki mantık, belirli bir yanlış pozitif oran için gerçek pozitif oran ne kadar yüksek olursa, sınıflandırıcının o kadar iyi olmasıdır. Tüm olası yanlış pozitif oranları entegre etmek size genel bir önlem verir.


3
OP'yi anladığım kadarıyla, onun sorunu bir sınıflandırıcının performansının ölçülmesi DEĞİLDİR (umarım gelecekteki beklenen performans için iyi bir tahmindir), ancak birinin TÜMÜNÜ ne kadar iyi alabileceği, yani maksimum (kesinlikle değil) metrik başına (AUC maks. 1 veya bunun gibi bir şeydir), ancak belirli bir sorun için)
steffen

Evet, demek istediğim buydu.
bayerj

0

Verilerinizi görselleştirmenin bir yolu varsa, bu mümkün olan en iyi senaryodur, ancak tüm veriler aynı şekilde görüntülenemez, bu nedenle verilerinizi anlamanıza yardımcı olabilecek verileri yansıtmak için kendi yolunuzu bulmanız gerekebilir. daha iyi.

Bununla birlikte, genel olarak, verilerin küçük bir örneğini alıyorum, ARFF'ye dönüştürüyorum ve WEKA'dan farklı kümeleme algoritmaları deniyorum. Sonra, hangi algoritmanın bana daha iyi karışıklık matrisi verdiğini görüyorum. Sınıfların ne kadar iyi ayrıldığına dair bir ipucu veriyor ve bu algoritmanın neden bu veriler için daha iyi olduğunu araştırmamı sağlıyor. Ayrıca kümelerin sayısını da değiştiriyorum (yani sadece k = 2 kullanmıyorum, k = 3, 4 vb. Kullanıyorum). Bana verilerde parçalanma olup olmadığı ya da bir sınıfın diğerinden daha parçalanmış olup olmadığı hakkında bir fikir verir. Kümelenme için eğitim ve test noktalarını bir araya getirirseniz, hangi kümelerin eğitim noktalarınız tarafından temsil edildiğini de ölçebilirsiniz. Bazı kümeler aşırı temsil edilebilir ve bazıları yetersiz temsil edilebilir, her ikisi de bir sınıflandırıcıyı öğrenen sorunlara neden olabilir.

Her zaman egzersizinizin doğruluğunu kontrol edin. Egzersiz doğruluğunuz iyi görünmüyorsa, yanlış sınıflandırılmış egzersiz noktaları da büyük bir ipucudur.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.