Rastgele Orman ne zaman SVM ve ne zaman kullanılır?


28

Tüm bir kullanmak Random Forestüzerinde SVMtam tersi ve yardımcısı?

Bunu anlıyorum cross-validationve model karşılaştırması, bir model seçmenin önemli bir yönüdür, ancak burada iki yöntemin genel kuralları ve sezgisel özellikleri hakkında daha fazla bilgi edinmek istiyorum.

Birisi lütfen sınıflandırıcıların inceliklerini, güçlü yönlerini ve zayıflıklarını, ayrıca her birine en uygun olan sorunları açıklayabilir mi?


1
Doğruluk skoru, göreceli performanslarının tek gerçek ölçüsüdür; ancak, eğer şanslıysanız, veri türünüz üzerinde hangi sınıflayıcı türünün daha iyi olabileceğini gösteren önceki teknik olabilir. Parametrelerinizi ayarlamanızın ne kadar süreceği konusunda daha kısıtlı olabilirsiniz, bu durumda Rastgele Orman muhtemelen ikisinin daha kolay bir teklifini ispatlayacaktır.
image_doctor 20:15

Yanıtlar:


29

Seçim, büyük ölçüde hangi verilere sahip olduğunuza ve amacınızın ne olduğuna bağlı. Birkaç "kural".

Rastgele Orman çok sınıflı problemler için kendinden uygundur, SVM ise kendinden iki sınıflıdır. Çok sınıflı problem için, onu çoklu ikili sınıflandırma problemlerine indirgemeniz gerekecektir.

Rastgele Orman, sayısal ve kategorik özelliklerin bir karışımı ile iyi çalışır. Özellikler çeşitli ölçeklerde olduğunda, aynı zamanda iyidir. Kabaca konuşursak, Random Forest ile verileri olduğu gibi kullanabilirsiniz. SVM, "marjı" maksimuma çıkarır ve bu nedenle farklı noktalar arasındaki "mesafe" kavramına dayanır. "Mesafe" nin anlamlı olup olmadığına karar vermek size kalmıştır. Sonuç olarak, kategorik özellikler için tek bir sıcak kodlama bir zorunluluktur. Ayrıca, ön-işleme aşamasında min-max veya başka bir ölçeklendirme yapılması şiddetle tavsiye edilir.

puan ve özelliklerine sahip verileriniz varsa , SVM'deki bir ara adım nokta ürünlerini (hesaplama karmaşıklığı) hesaplayarak matrisi (depolama için bellek gereksinimlerini düşünün ) oluşturur. Bu nedenle, bir kural olarak, SVM 10 ^ 5 puanın ötesinde ölçeklenebilir değildir. Çok sayıda özellik (anlamlı mesafeye sahip homojen özellikler, görüntünün pikseli mükemmel bir örnek olacaktır) genellikle bir sorun değildir.nmn×nn2

Bir sınıflandırma problemi için Rastgele Orman size sınıfa ait olma olasılığını verir. SVM size sınıra mesafe kazandırır, olasılık gerekiyorsa hala bir şekilde olasılığa dönüştürmeniz gerekir.

SVM'nin uygulandığı bu sorunlar için, genellikle Rastgele Orman'dan daha iyi performans gösterir.

SVM size “destek vektörleri” verir, yani her bir sınıftaki sınıflar arasındaki sınıra en yakın nokta. Tercüme için kendi başlarına ilgi çekici olabilirler.


Sadece eklemek için: Rastgele Ormanların size olasılık vermesi kolay değildir. Ya bir karar ağacının olasılıksal bir uygulamasına ihtiyacınız var ya da 'gerçek' olasılıklar istiyorsanız, uygun Rastgele Orman modelinizi kalibre etmeniz gerekiyor.
Archie

5

SVM modelleri seyrek verilerde genelde ağaçlardan daha iyi performans gösterir. Örneğin, belge sınıflandırmada binlerce, on binlerce özelliğe bile sahip olabilirsiniz ve verilen herhangi bir belge vektöründe bu özelliklerin yalnızca küçük bir kısmı sıfırdan büyük bir değere sahip olabilir. Muhtemelen aralarında başka farklılıklar var, ama sorunlarım için bulduğum şey bu.


3

Bu gerçekten ne elde etmek istediğinize, verilerinizin nasıl göründüğüne ve benzeri şeylere bağlıdır. SVM genellikle doğrusal bağımlılıklarda daha iyi performans gösterir, aksi halde doğrusal olmayan çekirdeğe ihtiyacınız olur ve çekirdek seçimi sonuçları değiştirebilir. Ayrıca, SVM daha az yorumlanabilir niteliktedir - örneğin, sınıflandırmanın neden böyle olduğunu açıklamak istiyorsanız, önemsiz olacaktır. Karar ağaçları daha iyi yorumlanabilirliğe sahiptir, daha hızlı çalışırlar ve kategorik / sayısal değişkenler varsa, gayet iyi, üstelik doğrusal olmayan bağımlılıklar da iyi yönetilir (yeterince büyük N verildiğinde). Ayrıca genel olarak SVM'den daha hızlı eğitiyorlar, ancak aşırı kullanma eğilimi var ...

Ayrıca Logistic Regression (Lojistik Regresyon) 'u da deneyebilirim.

Özetlemek gerekirse, genel kural bir şeyi denemek ve size en iyi sonuçları / yorumları veren sonuçları karşılaştırmaktır.


1

Daha önce belirtilen iyi noktaları tamamlamak için:

Gönderen Do Biz Gerçek Dünya Sınıflandırma Sorunları çözmek için Sınıflandırıcılar Yüzlerce gerekiyor? rastgele ormanların rastgele ormanlardan daha iyi bir performans gösterme olasılığı daha yüksektir.

Ayrıca, algoritmaların uygulanma şekli (ve teorik sebeplerden dolayı) rasgele ormanlar genellikle (doğrusal olmayan) SVM'lerden çok daha hızlıdır. Gerçekten, @Ienenok olarak, SVM'ler 10.000 veri noktasının ötesinde kullanılamaz olma eğilimindedir.

Ancak, SVM'lerin bazı belirli veri kümelerinde daha iyi performans gösterdiği bilinmektedir (görüntüler, mikro dizi verileri ...).

Dolayısıyla, bir kez daha, çapraz doğrulama gerçekten hangi yöntemin en iyi performansı gösterdiğini bilmenin en iyi yoludur.

Kaynak: Rastgele orman vs SVM


ee? "rastgele ormanların rastgele ormanlardan daha iyi bir performans gösterme olasılığı daha yüksektir."
Sanjay Manohar
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.