Karar Ağaçları ve Regresyon - Öngörülen değerler eğitim verisi aralığı dışında olabilir mi?


12

Karar ağaçları söz konusu olduğunda, öngörülen değer eğitim verisi aralığının dışında kalabilir mi?

Örneğin, hedef değişkenin egzersiz veri kümesi aralığı 0-100 ise, modelimi oluşturup başka bir şeye uyguladığımda değerlerim -5 olabilir mi? veya 150?

Karar ağacı gerilemesi anlayışımın hala kural tabanlı olduğu - sol / sağ ilerleme olduğu ve eğitim setindeki ağacın dibinde hiçbir zaman belirli bir aralığın dışında bir değer göremeyeceği göz önüne alındığında, asla tahmin etmek?


Yanıtlar:


11

Tamamen haklısınız: Klasik karar ağaçları , tarihsel olarak gözlemlenen aralığın dışındaki değerleri tahmin edemez . Ekstrapolasyon yapmayacaklar.

Aynı durum rastgele ormanlar için de geçerlidir.

Teorik olarak, bazen ağacın yapraklarının tek bir değer vermediği , ancak basit bir regresyon içerdiği , örneğin, bağımlı bir değişkeni belirli bir sayısal bağımsız değişken üzerinde gerileme gibi , biraz daha ayrıntılı mimarilerin (botanik?) Tartışmaları görürsünüz . Ağaçta gezinmek size hangi sayısal IV'ün hangi durumda DV'yi gerileyeceği konusunda bir kural kümesi verecektir. Böyle bir durumda, bu "en alt seviye" regresyonu henüz gözlemlenmeyen değerler vermek üzere tahmin edilebilir.

Bununla birlikte, standart makine öğrenme kütüphanelerinin bu biraz daha karmaşık bir yapı sunduğunu düşünmüyorum (son zamanlarda bunu CRAN Görev Görünümleri aracılığıyla aradım), ancak bu konuda gerçekten karmaşık bir şey olmamalı. Yapraklarda regresyon içeren kendi ağacınızı uygulayabilirsiniz.


1
R'de yaprak regresyonunu destekleyen mobForest'i seyrek okudum, stats.stackexchange.com/questions/48475/mobforest-r-package
Soren Havelund Welling

1
@SorenHavelundWelling: kulağa ilginç geliyor. İşaretçi için teşekkürler!
Stephan Kolassa

1
Bir ağacın yapraklarında lineer regresyon modelleri sağlayan ilk algoritmalardan biri, Quineka'nın M5'idir; yaklaşık olarak Weka'daki M5P () 'de mevcuttur (R'den RWeka'ya arayüzlenmiştir). Soruna ilişkin GUIDE adı verilen tarafsız bir algoritma ilk olarak Loh tarafından önerildi. Bağımsız paketi için ikili dosyalar web sitesinde bulunmaktadır. Son olarak, model tabanlı (MOB) özyinelemeli bölümleme algoritmamız bu tür çeşitli modelleri kapsar. R paket parti kitinde mevcuttur: mob () genel bir araçtır ve lmtree () ve glmtree (), yapraklarda (genelleştirilmiş) doğrusal modellere sahip ağaçlara uyarlanmasıdır.
Achim Zeileis

2
@SorenHavelundWelling: ne yazık ki, ambalaj CRAN kaldırıldı . Ben bir göz alacağım paketin o Achim Zeileis önerilir . mobForestpartykit
Stephan Kolassa

1
Sadece mobForest'in CRAN'a geri döndüğünü söyleyin: cran.r-project.org/web/packages/mobForest/index.html
mkt - Monica

7

Ayrıca caret paketindeki kübistlere de göz atın . Terminal düğümlerinde doğrusal regresyonlar oluşturur ve egzersiz verilerindeki yanıt değerleri aralığının üstünde ve altında tahminleri tahmin edebilir. Terminal düğümlerin ayrıca bir hiperparametre olarak sağlanan en yakın komşuları temel alarak ortalaması alınabilir, bu nedenle son derece hassas çapraz doğrulanmış tahminler sağlama potansiyeline sahiptir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.