Yani, ML alanında bir acemi oldum ve biraz sınıflandırma yapmaya çalışıyorum. Amacım bir spor etkinliğinin sonucunu tahmin etmektir. Bazı tarihsel veriler topladım ve şimdi bir sınıflandırıcı yetiştirmeye çalıştım. Yaklaşık 1200 örnek aldım, bunlardan 0.2 tanesi test amaçlı olarak ayırdım, diğerleri farklı sınıflandırıcılar ile ızgara aramasına (çapraz doğrulama dahil) koydum. Şu ana kadar doğrusal, rbf ve polinom çekirdekleri ve Rastgele Ormanlarla SVM'yi denedim. Ne yazık ki, doğruluk 0,5'ten önemli ölçüde daha büyük olamaz (rasgele sınıf seçimi ile aynı). Bu, bu kadar karmaşık bir olayın sonucunu tahmin edemeyeceğim anlamına mı geliyor? Yoksa en az 0.7-0.8 doğruluk alabilir miyim? Mümkünse, bir sonraki aşamaya ne bakmalıyım?
- Daha fazla veri almak ister misiniz? (Veri kümesini 5 kata kadar büyütebilirim)
- Farklı sınıflandırıcılar mı denemek istiyorsunuz? (Lojistik regresyon, kNN, vb.)
- Özellik kümemi yeniden değerlendirilsin mi? Analiz edilecek ML-araçları var mı, hangi özellikler anlamlı ve hangileri anlamlı değil? Belki, özellik setimi azaltmalıyım (şu anda 12 özelliğim var)?