İkili sınıflandırma algoritmasını seçin


17

Bir ikili sınıflandırma sorunum var:

  • Eğitim setinde yaklaşık 1000 numune
  • İkili, sayısal ve kategorik olmak üzere 10 özellik

Bu tür bir problem için hangi algoritma en iyi seçimdir?

Varsayılan olarak, nispeten temiz ve gürültülü olmayan veriler için en iyi olduğu düşünülen SVM (nominal özellik değerlerine ikili özelliklere dönüştürülmüş ön) sahip olarak başlayacağım.

Yanıtlar:


15

Veri kümeniz hakkında ve veri kümenizin özellik vektörünüze ne kadar ayrılabilir olduğunu bilmeden söylemek zor, ancak muhtemelen nispeten küçük örnek kümeniz nedeniyle standart rastgele ormanlar üzerinde aşırı rasgele orman kullanmanızı öneririm.

Aşırı rasgele ormanlar, standart rasgele ormanlara oldukça benzerdir, tek istisna, ağaçlardaki bölünmeleri optimize etmek yerine, aşırı rasgele ormanın bölünmeleri rastgele hale getirmesidir. Başlangıçta bu bir negatif gibi görünecektir, ancak genellikle eğitim setinizdeki AUC'nin biraz daha kötü olmasına rağmen, genel olarak önemli ölçüde daha iyi genelleme ve hıza sahip olduğunuz anlamına gelir.

Lojistik regresyon da bu tür görevler için oldukça sağlam bir bahistir, ancak nispeten düşük boyutluluğunuz ve küçük örneklem büyüklüğünüzle aşırı sığdırma konusunda endişelenirim. K-En Yakın Komşularını kullanarak kontrol etmek isteyebilirsiniz, çünkü genellikle düşük boyutlarla çok isteklidir, ancak genellikle kategorik değişkenleri çok iyi idare etmez.

Sorun hakkında daha fazla bilgi sahibi olmadan bir tane seçmek zorunda kalsaydım, bahislerimi kesinlikle rastgele ormana koyardım, çünkü bu tür veri kümesinde iyi bir genelleme yapma olasılığı çok yüksektir ve aynı zamanda sayısal ve kategorik verilerin bir karışımını daha iyi işler. diğer yöntemlerden daha fazladır.


iyi teşekkürler! Yine de ERF oluşturmak için R randomize "randomForest" ( cran.r-project.org/web/packages/randomForest/randomForest.pdf ) kullanıp kullanamayacağımdan emin değilim . Muhtemelen değil.
IharS

12

Düşük parametreler, oldukça sınırlı örnek büyüklüğü ve ikili sınıflandırıcı lojistik regresyonu için yeterince güçlü olmalıdır. Daha gelişmiş bir algoritma kullanabilirsiniz, ancak muhtemelen aşırıya kaçmıştır.


5

Kategorik değişkenler karışımdayken, kategorik değişkenleri doğrudan 1-of-n kodlama dönüşümü olmadan işlediğinden, Rasgele Karar Ormanları'na ulaşırım. Bu daha az bilgi kaybeder.


5

Doğrusal SVM iyi bir başlangıç ​​noktası olmalıdır. Doğru tahminciyi seçmek için bu kılavuza bir göz atın .


2

Önce karmaşık yöntemlerin kullanılmasını tavsiye etmem. Başlangıçta daha hızlı basit yaklaşımlar kullanın (kNN, NBC, vb.), Sonra lineer regresyon, lojistik regresyon, LDA, CART (RF), KREG ve daha sonra en az kareler SVM, gradyan tırmanma SVM, ANN'ler ve daha sonra metaheurustics (açgözlü) GA'lar ile sezgisel tepeye tırmanma, sürü zekası, karınca kolonisi optimizasyonu, vb.)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.