Bir karar ağacının neden düşük yanlılığı ve yüksek sapması vardır?


15

Sorular

  1. Ağacın sığ mı yoksa derin mi olduğuna bağlı mı? Yoksa ağacın derinliğine / seviyesine bakılmaksızın bunu söyleyebilir miyiz?
  2. Önyargı neden düşük ve varyans yüksek? Lütfen sezgisel ve matematiksel olarak açıklayınız

Yanıtlar:


4

Partiye biraz geç ama bu sorunun cevabı somut örneklerle kullanabileceğini hissediyorum.

Bu mükemmel makalenin özetini yazacağım : konuyu anlamama yardımcı olan önyargı-varyans-değiş tokuş .

Herhangi bir makine öğrenme algoritması için tahmin hatası üç bölüme ayrılabilir:

  • Önyargı Hatası
  • Sapma Hatası
  • İndirgenemez Hata

İndirgenemez hata

Adından da anlaşılacağı gibi, algoritmadan ve parametre seçiminden bağımsız olarak düzeltemeyeceğimiz bir hata bileşenidir. İndirgenemez hata sadece olan karmaşıklıkları nedeniyle değil eğitim seti yakalanan. Bu, bir öğrenme setinde sahip olmadığımız özellikler olabilir, ancak bunlar ne olursa olsun sonuçla eşlemeyi etkiler.

Önyargı hatası

Önyargı hatası, hedef işlev hakkındaki varsayımlarımızdan kaynaklanmaktadır. Hedef işlevler hakkında ne kadar fazla varsayım (kısıtlama) yaparsak, o kadar önyargı sunarız. Yüksek yanlılığa sahip modeller daha az esnektir, çünkü hedef fonksiyonlara daha fazla kural koyarız.

Sapma hatası

Varyans hatası, bir hedef fonksiyonun formunun farklı eğitim setlerine göre değişkenliğidir. Eğitim setinde birkaç örneği değiştirirseniz, küçük varyans hatası olan modeller çok fazla değişmeyecektir. Yüksek varyanslı modeller, eğitim setindeki küçük değişikliklerle bile etkilenebilir.

Basit doğrusal regresyon düşünün:

Y=b0+b1x

Açıkçası, bu bir hedef fonksiyonun oldukça kısıtlayıcı bir tanımıdır ve bu nedenle bu modelin yüksek bir önyargıya sahiptir.

Öte yandan, birkaç veri örneğini değiştirirseniz düşük sapma nedeniyle, bunun hedef fonksiyonun gerçekleştirdiği genel haritalamada büyük değişikliklere neden olması olası değildir. Öte yandan, k-en yakın komşuları gibi algoritma yüksek varyansa ve düşük sapmaya sahiptir. Farklı numunelerin KNN karar yüzeyini nasıl etkileyebileceğini hayal etmek kolaydır.

Genel olarak, parametrik algoritmalar yüksek bir sapmaya ve düşük varyansa sahiptir ve bunun tersi de geçerlidir.

Makine öğrenmesinin zorluklarından biri, yanlılık hatası ve varyans hatası arasında doğru dengeyi bulmaktır.

Karar ağacı

Şimdi bu tanımları uyguladığımıza göre, karar ağaçlarının düşük önyargıya ve yüksek varyansa sahip bir model örneği olduğunu görmek de kolaydır. Ağaç, hedef işlev hakkında neredeyse hiçbir varsayım yapmaz, ancak verilerdeki varyansa karşı oldukça hassastır.

Karar ağacında küçük yanlılık maliyetinde varyansı azaltmayı amaçlayan önyükleme toplama ve rastgele orman gibi topluluk algoritmaları vardır.


2

Seviye sayısı çok yüksekse, yani karmaşık bir karar ağacı ise, model fazla uyuma eğilimi gösterir.

Sezgisel olarak, bu şekilde anlaşılabilir. Sonuca varmadan önce geçmesi gereken çok fazla karar düğümü varsa, yani yaprak düğümlerine ulaşmadan önce geçecek düğüm sayısı yüksek olduğunda, kontrol ettiğiniz koşullar çarpımlanır. Yani, hesaplama (koşul 1) && (koşul 2) && (koşul 3) && (koşul 4) && (koşul5) olur .

Sadece tüm koşullar yerine getirilirse, bir karara varılır. Gördüğünüz gibi, sürekli olarak verileri daralttığınız için bu eğitim seti için çok iyi çalışacaktır. Ağaç, eğitim setinde mevcut olan verilere göre büyük ölçüde ayarlanır.

Ancak yeni bir veri noktası beslendiğinde, parametrelerden biri hafifçe sapsa bile, koşul karşılanmaz ve yanlış dal alır.


1
  1. Karmaşık bir karar ağacı (örneğin derin), düşük sapmaya ve yüksek varyansa sahiptir. Eğilim-sapma dengesi ağacın derinliğine bağlıdır.

  2. Karar ağacı nereye ayrıldığına ve nasıl ayrıldığına duyarlıdır. Bu nedenle, giriş değişkeni değerlerindeki küçük değişiklikler bile çok farklı ağaç yapısına neden olabilir.


4
Ölçeklemeden etkilenen tek bir sıradan ağaç algoritmasını hatırlamıyorum, değişken değerlerini görmüyorlar, sadece rütbeleri.
Firebug

0

Bir karar ağacının neden düşük yanlılığı ve yüksek sapması vardır? Ağacın sığ mı yoksa derin mi olduğuna bağlı mı? Yoksa ağacın derinliğine / seviyesine bakılmaksızın bunu söyleyebilir miyiz? Önyargı neden düşük ve varyans yüksek? Lütfen sezgisel ve matematiksel olarak açıklayınız.

Sapma ve Varyans

Daha Fazla Önyargı = modelden kaynaklanan hata daha basit (verilere çok iyi uymuyor)

Daha Fazla Varyans = modelin daha karmaşık olmasından kaynaklanan hata (verilere çok iyi uyuyor ve verilerin doğal modellerine ek olarak gürültüyü öğreniyor)

Her şey görecelidir

Her şeyin göreceli olduğunu söyleyerek başlamak istiyorum. Karar Ağacı genel olarak rastgele ormanlar diyelim düşük sapma ve yüksek varyansa sahiptir. Benzer şekilde, daha sığ bir ağaç, daha yüksek derinliğe sahip aynı ağaçtan daha yüksek yanlılığa ve daha düşük varyansa sahip olacaktır.

Karar ağaçları ile rastgele ormanların varyansının karşılaştırılması

Şimdi bu ütüleme ile, karar ağaçlarının neden varyansta (daha yüksek varyans ve daha düşük sapma) rastgele ormanlar diyeceğinden daha kötü olacağını düşünelim. Karar ağacı algoritmasının çalışma şekli, ağaçta inerken verilerin tekrar tekrar bölünmesidir, bu nedenle gerçek tahminler daha az ve daha az veri noktasıyla yapılır. Buna kıyasla, rasgele ormanlar birden fazla ağacın kararlarını toplar ve bu da rasgeleleştirme yoluyla daha az korelasyonlu ağaçları toplar, bu nedenle model daha iyi genelleşir (=> farklı veri kümelerinde daha güvenilir performans gösterir = daha düşük sapma). Benzer şekilde, tek bir ağaca sığacak şekilde veri ve özelliklerin bir alt kümesine, dolayısıyla daha yüksek önyargıya sahip olmak için rastgele ormanlarda daha basit varsayımlar yapıyoruz. BTW, benzerlik,

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.