Rasgele Orman ve Karar Ağacı Algoritması


14

Rastgele bir orman, torbalama kavramını takip eden karar ağaçlarının bir koleksiyonudur. Bir karar ağacından bir sonraki karar ağacına geçtiğimizde, son karar ağacı tarafından öğrenilen bilgiler bir sonrakine nasıl ilerler?

Çünkü, anlayışım gereği, her karar ağacı için oluşturulan ve bir sonraki karar ağacı yanlış sınıflandırılmış hatadan öğrenmeye başlamadan önce yüklenen eğitimli bir model gibi bir şey yoktur.

Peki nasıl çalışır?


"Bir karar ağacından bir sonraki karar ağacına geçtiğimizde". Bu doğrusal bir süreç olduğunu göstermektedir. CPU çekirdeği başına bir ağaç üzerinde çalıştığımız paralel uygulamalar yaptık; eğitimde CPU çekirdeği başına ayrı bir rasgele sayı üreteci kullanmadığınız sürece , hepsi aynı tohumu paylaşan mükemmel bir şekilde çalışır . Bu durumda çok sayıda özdeş ağaç ortaya çıkabilir.
MSalters

Yanıtlar:


23

Ağaçlar arasında bilgi aktarılmaz. Rasgele bir ormanda, tüm ağaçlar aynı şekilde dağıtılır, çünkü ağaçlar tüm ağaçlar için aynı randomizasyon stratejisi kullanılarak yetiştirilir. İlk olarak, verilerin bir önyükleme örneğini alın ve sonra rastgele seçilen özellik alt kümesinden böler kullanarak ağacı büyütün. Bu, topluluktaki diğer ağaçlara dikkat etmeden her ağaç için ayrı ayrı olur. Bununla birlikte, ağaçlar her bir ağacın ortak bir eğitim verisi havuzundan alınan bir örnek üzerinde eğitilmesiyle ilişkilendirilir; aynı veri kümesindeki birden çok örnek benzer olma eğilimindedir, bu nedenle ağaçlar bu benzerliğin bir kısmını kodlar.

Yüksek kaliteli bir metinden rastgele ormanlara bir giriş okumak yararlı olabilir. Biri Leo Breiman'ın "Rastgele Ormanları" dır. Bir bölüm de var İstatistiksel Öğrenme Elements HASTIE vd.

Rasgele ormanları AdaBoost veya gradyanla güçlendirilmiş ağaçlar gibi artırıcı yöntemlerle karıştırmış olabilirsiniz. Arttırma yöntemleri aynı değildir, çünkü bir sonraki arttırma turunu bilgilendirmek için önceki arttırma turlarından kaynaklanan uyumsuzluk hakkında bilgi kullanırlar. Bakınız: Rastgele orman güçlendirici bir algoritma mı?


11

Rastgele ormanlar birden karar ağaçlarının topluluğudur birbirlerinden bağımsız olarak eğitilmiş . Dolayısıyla, sıralı olarak bağımlı eğitim kavramı yoktur (bu algoritmaların güçlendirilmesinde de geçerlidir ). Bunun bir sonucu olarak, başka bir cevapta belirtildiği gibi, ağaçların paralel eğitimi mümkündür.

Rastgele ormandaki "rastgele" nin nereden geldiğini bilmek isteyebilirsiniz: ağaçları öğrenme sürecine rastgelelığın enjekte edilmesinin iki yolu vardır. Birincisi, ağaçların her birini eğitmek için kullanılan veri noktalarının rastgele seçimi ve ikincisi, her ağacın yapımında kullanılan özelliklerin rastgele seçilmesidir. Tek bir karar ağacı genellikle verilere uyma eğiliminde olduğundan, bu şekilde rasgele enjeksiyon, her birinin mevcut eğitim verilerinin farklı bir alt kümesinde iyi bir doğruluğa (ve muhtemelen fazladan geçmeye) sahip olduğu bir grup ağaçla sonuçlanır. . Bu nedenle, tüm ağaçlar tarafından yapılan tahminlerin ortalamasını aldığımızda, aşırı sığdırmada bir azalma gözlemleyeceğiz ( mevcut tüm veriler üzerinde tek bir karar ağacının eğitimi ile karşılaştırıldığında ).

MN-

  1. ben=0
  2. MMSben
  3. benTbenSben
    • eğitim süreci, ağaçtaki her düğümde, o düğümdeki bölünme için yalnızca rastgele bir özellik seçiminin kullanılması haricinde, bir karar ağacı eğitimi ile aynıdır.
  1. ben=ben+1
  2. ben<N-

T1T2TN-

  • Bir regresyon görevi için kullanılıyorsa, tahminlerin ortalamasını rastgele ormanın tahmini olarak alın.

  • Bir sınıflandırma görevi için kullanılıyorsa, yumuşak oylama stratejisi kullanın : her sınıf için ağaçların öngördüğü olasılıkların ortalamasını alın, daha sonra rastgele ormanın nihai tahmini olarak en yüksek ortalama olasılığı olan sınıfı ilan edin.

Ayrıca, ağaçları sıralı olarak bağımlı bir şekilde eğitmenin mümkün olduğunu ve rastgele ormanlardan tamamen farklı bir yöntem olan gradyanla güçlendirilmiş ağaçlar algoritmasının yaptığı tam olarak budur .


8

Rastgele orman, güçlendirici bir algoritmadan ziyade bir torbalama algoritmasıdır.

Rasgele orman, verileri rasgele örnek kullanarak ağacı bağımsız olarak oluşturur. Paralel bir uygulama mümkündür.

Yeni ağacın daha önce yapılan hatayı düzeltmeye çalıştığı yerlerde ağaçların sırayla oluşturulduğu degrade artırımını kontrol etmek isteyebilirsiniz.


6

Peki nasıl çalışır?

Rastgele Orman, karar ağaçlarının bir koleksiyonudur. Ağaçlar bağımsız olarak inşa edilir. Her ağaç, özelliklerin alt kümesi ve değiştirme ile seçilen bir örneğin alt kümesi hakkında eğitilir.

Tahmin ederken, örneğin Sınıflandırma için, girdi parametreleri ormandaki her ağaca verilir ve her ağaç sınıflandırmada "oy" atar, çoğu oyu kazanır.

Basit Karar Ağacı üzerinde neden Rasgele Orman kullanılmalı? Önyargı / Sapma değiş tokuşu. Rastgele Orman, tek bir karar ağacına kıyasla çok daha basit ağaçlardan inşa edilmiştir. Genel olarak Rastgele ormanlar, varyans nedeniyle büyük bir hata azalması ve yanlılık nedeniyle küçük hata artışı sağlar.


Her Karar Ağacı için farklı özellikler seçiyorsak, bir sonraki Karar Ağacı için önceden yanlış sınıflandırılmış değerleri gönderirken, önceki Karar Ağacı'ndaki bir dizi özellik tarafından öğrenmenin nasıl geliştiğini tamamen yeni bir özellik kümesi var mı?
Abhay Raj Singh

3
@AbhayRajSingh - Random Forest'ta "yanlış sınıflandırılmış değerleri ileriye göndermezsiniz". Akavall'un dediği gibi, "Ağaçlar bağımsız olarak inşa edilir"
Henry

1

Evet, yukarıdaki yazarların söylediği gibi, Random Forest algoritması bir torbalamadır, güçlendirici bir algoritma değildir.

Torbalama, farklı örneklere yerleştirilen temel algoritmalar ve hataları oylamada karşılıklı olarak telafi edildiği için sınıflandırıcının varyansını azaltabilir. Torbalama, tahmin gücünü artırmak için bir araç olarak aynı modelin biraz farklı versiyonlarının ortalamasını ifade eder. Torbalamayı uygulamak için B bootstrapped eğitim setlerini kullanarak B regresyon ağaçlarını oluşturuyoruz ve sonuç tahminlerini ortalıyoruz

Torbalamanın yaygın ve oldukça başarılı bir uygulaması Rastgele Orman

Ancak bu karar ağaçlarını rastgele ormanda inşa ederken, bir ağaçta bir bölünme her düşünüldüğünde, rastgele bir mbelirteç örneği , tüm p belirteçlerinden bölünmüş adaylar olarak seçilir. mBölünmenin bu tahminlerden sadece birini kullanmasına izin verilir .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.