Ne zaman bir topluluk sınıflandırıcısı kullanmamalıyım?


17

Genel olarak, amaç doğru dışı numune tahmin etmek sınıfı üyelik olan bir sınıflandırma problemi, içinde ne zaman gerektiğini değil bir topluluk sınıflandırıcı kullanılır?

Bu soru neden Topluluk öğrenmeyi her zaman kullanmıyorsunuz? . Bu soru neden hep toplulukları kullanmadığımızı soruyor. Toplulukların, topluluk dışı bir eşdeğere göre daha kötü (sadece "daha iyi ve zaman kaybı" değil) olduğu bilinen durumlar olup olmadığını bilmek istiyorum .

Ve "topluluk sınıflandırıcısı" ile AdaBoost ve rasgele ormanlar gibi sınıflandırıcılardan bahsediyorum, aksine, kendi rulo destekli destek vektör makinesinin aksine.


2
Bireysel yöntemler arasında çeşitliliğiniz yoksa topluluk yöntemlerini kullanmam. Başka bir deyişle, topluluk, çeşitli yöntemler kümesini birleştirdiğinizde yararlıdır.
tahminci

2
@forecaster Yazarların topluluklar bağlamında "iyi" ve "kötü" çeşitlilik dediği hakkında çok iyi bir makale eklemeye yardımcı olamadım
Vladislavs Dovgalecs

@xeon güzel makale. makine öğrenme yöntemleri ne olursa olsun rastgele orman veya topluluk (birleştirerek) farklı yöntemleri, çeşitlilik kesinlikle yardımcı olur. Bunun arkasında güçlü bir teori vardır ve buna ve b i o l o g i c a l l y i n s p i r e d denir . naturebiologically inspired
tahminci

Yanıtlar:


7

Gerçek veri oluşturma sürecine en yakın olan model her zaman en iyisi olacak ve çoğu topluluk yöntemini yenecektir. Veriler doğrusal bir işlemden geliyorsa lm () rastgele ormanlardan çok daha üstün olacaktır, örneğin:

    set.seed(1234)
p=10
N=1000
#covariates
x = matrix(rnorm(N*p),ncol=p)
#coefficients:
b = round(rnorm(p),2)
y = x %*% b + rnorm(N)
train=sample(N, N/2)
data = cbind.data.frame(y,x)
colnames(data) = c("y", paste0("x",1:p))
#linear model
fit1 = lm(y ~ ., data = data[train,])
summary(fit1)
yPred1 =predict(fit1,data[-train,])
round(mean(abs(yPred1-data[-train,"y"])),2)#0.79

library(randomForest)
fit2 = randomForest(y ~ ., data = data[train,],ntree=1000)
yPred2 =predict(fit2,data[-train,])
round(mean(abs(yPred2-data[-train,"y"])),2)#1.33

13

Modelinizin yorumlanabilir ve açıklanabilir olması gerektiğinde bir topluluk sınıflandırıcısı kullanmanızı önermiyorum. Bazen tahminlere ve tahminlerin açıklamalarına ihtiyacınız olabilir .

İnsanları, tahminlerin inanmaya değer olduğuna ikna etmeniz gerektiğinde, oldukça doğru bir model çok ikna edici olabilir, ancak yöntemler konfor seviyeleri için çok karmaşık olduğunda insanları tahminler üzerinde hareket etmeye ikna etmek için mücadele ettim.

Deneyimlerime göre, çoğu insan lineer katkı modelleri, elle puan verebilecekleri modeller ile rahattır ve eğer uyarlanabilir güçlendirme, hiper-düzlemler ve 5. seviye etkileşim efektlerini açıklarsanız, kara büyü yapıyormuşsunuz gibi cevap verirler.

Öte yandan, insanlar modelin karmaşıklığı konusunda rahat olabilirler, ancak yine de bir içgörü içselleştirmek isterler. Örneğin, bilim adamları, kara kutu modelinin, model oldukça doğru olsa bile, insan bilgisinde bir ilerleme olduğunu düşünmeyebilirler.

Değişken önem analizi analizlere yardımcı olabilir, ancak eğer topluluk doğrusal bir katkı modelinden daha doğruysa, topluluk muhtemelen değişken önem analizinin tamamen açıklayamayacağı bazı doğrusal olmayan ve etkileşim etkilerinden yararlanmaktadır.


Sonra olduğum gibi değil, iyi puan. +1
shadowtalker

3

Branco'nun cevabına eklemek istiyorum. Topluluklar oldukça rekabetçi olabilir ve çok iyi sonuçlar verebilir. Örneğin akademisyenlerde önemli olan budur. Endüstride, toplulukları uygulamak / sürdürmek / değiştirmek / liman yapmak çok zor olabilir. Goef Hinton'un "Karanlık Bilgi" üzerindeki çalışması tam olarak bununla ilgilidir: büyük bir topluluğun "bilgisinin" hareket etmek kolay bir modele nasıl aktarılacağı. Toplulukların test zamanında kötü olduğunu belirtiyor: yüksek derecede yedekli ve hesaplama süresi endişe verici olabilir.

Ekibi bazı ilginç sonuçlar aldı, yayınlarına ya da en azından slaytlarına bakmanızı öneririm. Hafızam iyi ise, bu 2013 veya 2014 sıcak konularından biriydi.

Karanlık Bilgi ile ilgili slaytları burada bulabilirsiniz: http://www.ttic.edu/dl/dark14.pdf

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.