Torbalı bir ağaç / rastgele orman ağacı neden tek bir karar ağacından daha yüksek yanlılığa sahiptir?


11

Tam olarak yetiştirilmiş bir karar ağacı (yani budanmamış bir karar ağacı) düşünürsek, yüksek varyans ve düşük önyargıya sahiptir.

Torbalama ve Rastgele Ormanlar bu yüksek varyanslı modelleri kullanır ve varyansı azaltmak ve böylece tahmin doğruluğunu arttırmak için bunları birleştirir. Hem Torbalama hem de Rastgele Ormanlar Bootstrap örneklemesi kullanır ve "İstatistiksel Öğrenme Unsurları" nda açıklandığı gibi, bu tek ağaçtaki yanlılığı artırır.

Ayrıca, Rastgele Orman yöntemi her bir düğümde izin verilen değişkenlerin bölünmesini sınırladığından, tek bir rastgele orman ağacının sapması daha da artar.

Bu nedenle, tahmin doğruluğu ancak Torbalama ve Rastgele Ormanlardaki tek ağaçların sapma artışı, varyans azaltımını "abartıyorsa" artar.

Bu beni şu iki soruya götürüyor: 1) Önyükleme örneklemesi ile, (neredeyse her zaman) önyükleme örneğinde aynı gözlemlerden bazılarının olacağını biliyorum. Peki bu neden Torbalama / Rastgele Ormanlardaki münferit ağaçların yanlılığında artışa neden oluyor? 2) Ayrıca, her değişkente ayrılabilecek değişkenler üzerindeki sınır neden Rastgele Ormanlardaki münferit ağaçlarda daha yüksek yanlılığa neden olur?

Yanıtlar:


5

Kunlun'dan 1) cevabını kabul edeceğim, ancak sadece bu davayı kapatmak için, tezimde ulaştığım iki soru hakkında (her ikisi de Danışmanım tarafından kabul edildi) sonuçlar vereceğim:

1) Daha fazla veri daha iyi modeller üretir ve modeli eğitmek için tüm eğitim verilerinin sadece bir kısmını kullandığımızdan (bootstrap), her ağaçta daha yüksek önyargı oluşur (Kunlun tarafından verilen yanıttan kopyalayın)

2) Rastgele Ormanlar algoritmasında, her bölünmede bölünecek değişken sayısını sınırlıyoruz - yani verilerimizi açıklamak için değişken sayısını sınırlıyoruz. Yine, her ağaçta daha yüksek sapma meydana gelir.

Sonuç: Her iki durum da popülasyonu açıklama yeteneğimizi sınırlama meselesidir: Önce gözlem sayısını sınırlandırırız, daha sonra her bölünmede bölünecek değişken sayısını sınırlandırırız. Her iki sınırlama da her ağaçta daha yüksek yanlılığa neden olur, ancak genellikle modeldeki sapma azalması her ağaçtaki yanlılık artışını gölgede bırakır ve bu nedenle Torbalama ve Rastgele Ormanlar, tek bir karar ağacından daha iyi bir model üretme eğilimindedir.


-1

Sorularınız oldukça açık. 1) Daha fazla veri daha iyi model üretir, çünkü modelinizi (bootstrap) eğitmek için tüm eğitim verilerinin sadece bir kısmını kullandığınızda, daha yüksek önyargı makul olur. 2) Daha fazla yarılma daha derin ağaçlar veya daha saf düğümler anlamına gelir. Bu tipik olarak yüksek varyansa ve düşük yanlılığa neden olur. Ayrımı sınırlarsanız, daha düşük sapma ve daha yüksek sapma.


4
Her bootstrap örneği eşit derecede olası olduğundan ve yanlılık ortalama modelin davranışıyla ilgili olduğundan 1) için argümanı tam olarak satın almıyorum. Bundan daha süptil olması gerektiği anlaşılıyor. Ben de düşünmüyorum 2) sorulan soruyu ele alıyor. Poster, "sığ ağaçların yetişmesi" nde olduğu gibi "limit bölünmeleri" anlamına gelmez.
Matthew Drury
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.