Regresyon için rastgele orman 'gerçek' bir regresyon mu?


18

Regresyon için rastgele ormanlar kullanılır. Ancak, anladığım kadarıyla, her bir yaprağa ortalama bir hedef değer atarlar. Her ağaçta sadece sınırlı yapraklar bulunduğundan, hedefin regresyon modelimizden elde edebileceği sadece belirli değerler vardır. Yani bu sadece 'ayrık' bir regresyon değil (bir adım fonksiyonu gibi) ve 'sürekli' olan lineer regresyon gibi değil midir?

Bunu doğru anladım mı? Cevabınız evet ise, rasgele orman regresyonda ne gibi avantajlar sunar?


Yanıtlar:


23

Bu doğrudur - rasgele ormanlar, sürekli değişkenleri, özyinelemeli ikili bölümleme yoluyla işlev gören karar ağaçlarına dayandığı için ayırırlar. Ancak yeterli veri ve yeterli bölünmeyle, çok sayıda küçük adımdan oluşan bir adım işlevi düzgün bir işleve yaklaşabilir. Yani bu bir sorun olmak zorunda değil. Tek bir yordayıcı tarafından düzgün bir yanıt yakalamak istiyorsanız, belirli bir değişkenin kısmi etkisini hesaplar ve buna yumuşak bir işlev sığdırırsınız (bu, modelin kendisini etkilemez, bu da bu adım adım karakteri koruyacaktır).

Rastgele ormanlar, bazı uygulamalar için standart regresyon tekniklerine göre oldukça az avantaj sunar. Sadece üçünden bahsetmek gerekirse:

  1. İsteğe bağlı olarak birçok tahmin edicinin kullanılmasına izin verir (veri noktalarından daha fazla tahminci mümkündür)
  2. Önceden bir şartname olmaksızın karmaşık doğrusal olmayan şekilleri tahmin edebilirler
  3. Önceden bir şartname olmadan tahminler arasındaki karmaşık etkileşimleri yakalayabilirler .

'Gerçek' bir gerileme olup olmadığına gelince, bu biraz anlamsaldır. Sonuçta, parçalı regresyon da gerilemedir, ancak aynı zamanda pürüzsüz değildir. Aşağıdaki yorumlarda belirtildiği gibi, kategorik bir öngörücü ile herhangi bir gerileme.


7
Ayrıca, sadece kategorik özelliklere sahip regresyon da düzgün olmaz.
Tim

3
Kategorik bir özelliğe sahip bir gerileme bile düzgün olabilir mi?
Dave

4

Ayrıktır, ancak daha sonra sabit sayıda bitli bir kayan nokta sayısı biçimindeki herhangi bir çıktı ayrık olacaktır. Bir ağacın 100 yaprağı varsa, o zaman 100 farklı sayı verebilir. Her biri 100 yapraklı 100 farklı ağacınız varsa, rastgele ormanınız teorik olarak 100 ^ 100 farklı değere sahip olabilir, bu da 200 (ondalık) basamak basamağı veya ~ 600 bit verebilir. Tabii ki, biraz çakışma olacak, bu yüzden aslında 100 ^ 100 farklı değer görmeyeceksiniz. Dağıtım, uç noktalara ulaştıkça daha ayrık olma eğilimindedir; her ağacın minimum bir yaprağı olacaktır (diğer tüm yapraklardan daha düşük veya diğer yapraklara eşit bir çıktı veren bir yaprak) ve her bir ağaçtan minimum yaprağı aldığınızda, daha düşük olamazsınız. Yani orman için bir miktar minimum değer olacak, ve bu değerden saptıkça, birkaç ağacın minimum yapraklarında olmasıyla başlayacak ve ayrı sıçramalardaki minimum değer artışından küçük sapmalar yapacaksınız. Ancak aşırı uçlardaki güvenilirliğin azalması, sadece rastgele ormanların değil genel olarak gerilemelerin bir özelliğidir.


Yapraklar antrenman verilerinden herhangi bir değer saklayabilir (bu nedenle doğru antrenman verileriyle 100 yapraktan 100 ağaç 10.000'e kadar farklı değer saklayabilir). Ancak döndürülen değer, her ağaçtan seçilen yaprağın ortalamasıdır. Bu nedenle, bu değerin hassasiyet bitleri sayısı, 2 veya 100 ağacınız olsun aynıdır.
Darren Cook

3

Cevap, regresyon tanımınızın ne olduğuna bağlı olacaktır, bkz . Regresyon modelinin tanımı ve sınırlandırılması . Ancak olağan bir tanım (ya da bir tanımın bir parçası), regresyonun koşullu beklentiyi modellediğidir . Ve bir regresyon ağacı gerçekten şartlı beklentinin bir tahmincisi olarak görülebilir.

Yaprak düğümlerinde, o yaprağa ulaşan örnek gözlemlerin ortalamasını tahmin edersiniz ve aritmetik ortalama bir beklentinin tahmincisidir. Ağaçtaki dallanma modeli koşullanmayı temsil eder.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.