Rastgele orman bir yükseltme algoritması mıdır?


51

Kısa tanım artırılması :

Bir grup zayıf öğrenci tek bir güçlü öğrenci yaratabilir mi? Zayıf bir öğrenci, gerçek sınıflandırma ile sadece hafifçe ilişkili olan bir sınıflayıcı olarak tanımlanır (örnekleri rastgele tahmin etmekten daha iyi etiketleyebilir).

Rastgele Ormanın Kısa Tanımı :

Rastgele Ormanlarda birçok sınıflandırma ağacı bulunur. Bir giriş vektöründen yeni bir nesneyi sınıflandırmak için, giriş vektörünü ormandaki ağaçların her birine yerleştirin. Her ağaç bir sınıflandırma verir ve ağacın o sınıfa "oy verdiğini" söyleriz. Orman en fazla oyu alan sınıflandırmayı seçer (ormandaki tüm ağaçların üzerinde).

Random Forest'in bir başka kısa tanımı :

Rastgele bir orman, veri kümesinin çeşitli alt örneklerinde bazı karar ağacı sınıflandırıcılarına uyan ve öngörme doğruluğunu geliştirmek ve aşırı uyumu denetlemek için ortalama kullanan bir meta tahmincisidir.

Anladığım kadarıyla Rastgele Orman ağaçları zayıf sınıflandırıcıları olarak kullanan bir yükseltme algoritması. Diğer teknikleri de kullandığını ve üzerinde geliştirildiğini biliyorum. Biri beni Random Forest'in bir yükseltme algoritması olmadığını düzeltti mi?

Birisi bu konuda ayrıntılı bilgi verebilir mi, neden Rastgele Orman bir yükseltme algoritması değil?


13
Rastgele ormanlar torbalama algoritmasıdır: en.wikipedia.org/wiki/Bootstrap_aggregating . Farkı görmek için, mümkün olan en kısa süreli yükseltme açıklamasından daha fazlasını okumanızı öneririm. Güçlendirmede, yeniden örnekleme stratejisi rastgele değildir .
Marc Claesen

12
Eğlenceli gerçek: Orijinal Random Forest makalesinde Breiman, AdaBoost'un (kesinlikle artırıcı bir algoritma), birkaç yinelemeden sonra, optimizasyon alanı sadece stokastik olarak sürüklenecek kadar gürültülü olduğu zaman, çoğunlukla Random Forest yaptığını öne sürüyor.

Yanıtlar:


81

Rastgele Orman, bir yükseltme algoritması yerine, bir torbalama algoritmasıdır. Düşük bir hata elde etmek için iki zıt yoldur.

Hatanın yanlılık ve sapmalardan kaynaklanabileceğini biliyoruz. Çok karmaşık bir model düşük önyargılı ancak büyük varyansa sahipken, çok basit bir model düşük varyansa sahip ancak büyük önyargılıdır, her ikisi de yüksek bir hataya neden olmakla birlikte iki farklı sebepten kaynaklanmaktadır. Sonuç olarak, sorunu çözmenin iki farklı yolu insanların aklına gelir (belki Breiman ve diğerleri), karmaşık bir modelde varyans azalması veya rastgele orman ve artırmayı ifade eden basit bir model için önyargı azaltma.

Rastgele orman, düşük önyargıya sahip çok sayıda "karmaşık" modelin varyansını azaltır. Kompozisyon öğelerinin "zayıf" modeller değil, çok karmaşık modeller olduğunu görebiliriz. Algoritma hakkında okursanız, altta yatan ağaçlar "mümkün" büyüklüğünde "biraz" ekilir. Temel ağaçlar bağımsız paralel modellerdir. Ve onları daha bağımsız hale getirmek için onlara rastgele değişken seçimi eklenir ve bu da normal torbalamadan daha iyi performans göstermesini sağlar ve "rastgele" adını verir.

Artırma, düşük varyanslı çok sayıda "küçük" modelin önyargısını azaltır. Sözünü ettiğin gibi "zayıf" modellerdir. Temel unsurlar her nasılsa, her seviyenin önyargısı hakkında bir "zincir" veya "iç içe" yinelemeli model gibidir. Bu yüzden bağımsız paralel modeller değiller, ancak her model ağırlıklandırmak suretiyle tüm eski küçük modellere dayanıyor. Buna tek tek "artırma" denir.

Breiman'ın makaleleri ve kitapları ağaçlar, rastgele ormanlar ve oldukça fazla destekleme hakkında tartışıyor. Algoritmanın arkasındaki prensibi anlamanıza yardımcı olur.


25

Rastgele bir orman, artırıcı bir algoritma türü olarak kabul edilmez.

Yükseltme bağlantınızda açıklandığı gibi:

... çoğu yükseltme algoritması, dağıtıma ilişkin zayıf sınıflandırıcıları yinelemeli bir şekilde öğrenme ve bunları son bir güçlü sınıflandırıcıya eklemekten oluşur. Eklendiklerinde, genellikle zayıf öğrencilerin doğruluğuyla ilgili bir şekilde ağırlıklandırılırlar. Zayıf bir öğrenci eklendikten sonra, veriler yeniden değerlendirilir ...

Bu yinelemeli sürecin bir örneği, öğrencinin daha fazla hatalı olduğu alanlara ve daha az doğru olan gözlemlere daha az odaklanmasını sağlamak için birçok yinelemede daha zayıf sonuçların artırıldığı veya yeniden değerlendirildiği bir konu.

Buna karşın, rastgele bir orman, veri kümesinden birçok ağacı rasgele seçerek (ve böylece birbiriyle ilişkilendirerek) ve ortalamalarını alarak tek tek ağaçların varyansını azaltmayı amaçlayan bir toplama torbalama veya ortalama alma yöntemidir.


7

Torbalamanın bir uzantısıdır. Prosedür aşağıdaki gibidir, verilerinizin önyükleme örneğini alırsınız ve bunu bir sınıflandırma veya regresyon ağacı (CART) yetiştirmek için kullanırsınız. Bu, önceden tanımlanmış sayıda yapılır ve öngörü, bireysel ağaç tahminlerinin toplanmasıdır, oy çoğunluğu (sınıflandırma için) veya ortalama (regresyon için) olabilir. Bu yaklaşıma torbalama denir (Breiman 1994). İçin Ayrıca Aday değişken her bölünme , herAğaç mevcut tüm bağımsız değişkenlerin rastgele bir örnekleminden alınır. Bu daha da fazla değişkenlik sağlar ve ağaçları daha çeşitli yapar. Buna rastgele alt uzay yöntemi denir (Ho, 1998). Belirtildiği gibi, bu birbirinden oldukça bağımsız olan ağaçlara dönüşen çok çeşitli ağaçlar üretir. Jensen'ın eşitsizliği nedeniyle, bu ağaç tahminlerinin hatalarının ortalamasının, o veri kümesinden yetiştirilen ortalama ağacın hatasına eşit veya daha küçük olacağını biliyoruz. Buna bakmanın başka bir yolu, Ortalama Kareli Hata'ya bakmak ve bunun yanlılık ve değişkenlik bölümlerinde nasıl ayrıştırılabileceğini fark etmektir (bu, yanlılık sapması tradeoffu adı verilen denetimli öğrenmede bir sorunla ilgilidir)). Rastgele orman, ortogonal ağaçların tahminlerinin ortalaması alınarak varyansı azaltarak daha iyi doğruluk sağlar. Oldukça tartışılan bir sorun olan ağaçlarının yanlılığını miras aldığına dikkat edilmelidir, örneğin bu soruyu kontrol edin .



3

Rastgele orman bir çuvallama tekniğidir, bir büyütme tekniği değildir. Adından da anlaşılacağı gibi artırmada, biri öğrenmeyi artıran diğerinden öğreniyor.

Rastgele ormanlardaki ağaçlar paraleldir. Ağaçları inşa ederken bu ağaçlar arasında etkileşim yoktur. Tüm ağaçlar inşa edildikten sonra, sorunun sınıflandırmanın veya regresyon problemi olup olmadığına bağlı olarak tüm ağaçların tahminde bir oylama veya ortalama alınır.

GBM-Gradient Boost makinesi gibi yükseltme algoritmalarındaki ağaçlar sıralı olarak eğitilir.

İlk ağacın eğitildiğini ve eğitim verileriyle ilgili bazı tahminlerde bulunduğunu varsayalım. Bu tahminlerin hepsi doğru olmaz. Toplam 100 tahminden yola çıkarak ilk ağacın 10 gözlemde hata yaptığını varsayalım. Şimdi bu 10 gözlem ikinci ağacı oluştururken daha fazla ağırlık verilecek. İkinci ağacın öğrenmesinin, ilk ağacın öğrenmesinden desteklendiğine dikkat edin. Dolayısıyla terim artırıyor. Bu şekilde, ağaçların her biri geçmiş ağaçlardan gelen öğrenmeler üzerine sırayla inşa edilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.