Seçim, büyük ölçüde hangi verilere sahip olduğunuza ve amacınızın ne olduğuna bağlı. Birkaç "kural".
Rastgele Orman çok sınıflı problemler için kendinden uygundur, SVM ise kendinden iki sınıflıdır. Çok sınıflı problem için, onu çoklu ikili sınıflandırma problemlerine indirgemeniz gerekecektir.
Rastgele Orman, sayısal ve kategorik özelliklerin bir karışımı ile iyi çalışır. Özellikler çeşitli ölçeklerde olduğunda, aynı zamanda iyidir. Kabaca konuşursak, Random Forest ile verileri olduğu gibi kullanabilirsiniz. SVM, "marjı" maksimuma çıkarır ve bu nedenle farklı noktalar arasındaki "mesafe" kavramına dayanır. "Mesafe" nin anlamlı olup olmadığına karar vermek size kalmıştır. Sonuç olarak, kategorik özellikler için tek bir sıcak kodlama bir zorunluluktur. Ayrıca, ön-işleme aşamasında min-max veya başka bir ölçeklendirme yapılması şiddetle tavsiye edilir.
puan ve özelliklerine sahip verileriniz varsa , SVM'deki bir ara adım nokta ürünlerini (hesaplama karmaşıklığı) hesaplayarak matrisi (depolama için bellek gereksinimlerini düşünün ) oluşturur. Bu nedenle, bir kural olarak, SVM 10 ^ 5 puanın ötesinde ölçeklenebilir değildir. Çok sayıda özellik (anlamlı mesafeye sahip homojen özellikler, görüntünün pikseli mükemmel bir örnek olacaktır) genellikle bir sorun değildir.nmn×nn2
Bir sınıflandırma problemi için Rastgele Orman size sınıfa ait olma olasılığını verir. SVM size sınıra mesafe kazandırır, olasılık gerekiyorsa hala bir şekilde olasılığa dönüştürmeniz gerekir.
SVM'nin uygulandığı bu sorunlar için, genellikle Rastgele Orman'dan daha iyi performans gösterir.
SVM size “destek vektörleri” verir, yani her bir sınıftaki sınıflar arasındaki sınıra en yakın nokta. Tercüme için kendi başlarına ilgi çekici olabilirler.