Rastgele Orman kıyafeti kullanıyor mu?


24

Rastgele Ormanlar hakkında okuyordum ama fazla uydurma sorunu hakkında kesin bir cevap bulamıyorum. Orijinal Breiman gazetesine göre, ormandaki ağaç sayısını arttırırken fazladan giydirilmemeli, ancak bu konuda bir fikir birliği olmadığı görülüyor. Bu konuda bana biraz kafa karışıklığı yaratıyor.

Belki benden daha uzman biri bana daha somut bir cevap verebilir veya sorunu daha iyi anlayabilmem için bana doğru yönde işaret edebilir.


3
Tüm algoritmalar bir dereceye kadar artacaktır. Fazlaca uymayan bir şey seçmekle ilgili değil, fazladan uydurma miktarını ve daha alakalı ölçümleri en üst düzeye çıkarmak için çözdüğünüz sorunun biçimini dikkatlice düşünmekle ilgili.
indico

1
ISTR, Breiman'ın Büyük Sayılar Yasasına dayanan bir kanıtı olduğunu söyledi. Birisi bu kanıtı bir kusur keşfetti mi?
JenSCDC

Yanıtlar:


22

Yüksek karmaşıklığa sahip her ML algoritması devreye girebilir. Bununla birlikte, OP ormandaki ağaç sayısını arttırırken bir RF'nin yetmeyip güvenmeyeceğini soruyor.

Genel olarak, topluluk yöntemleri tahmin varyansını neredeyse hiçbir şeye indirmeyerek topluluk doğruluğunu arttırır. Bir bireysel randomize modelin beklenen genelleme hatasının varyansını şu şekilde tanımlarsak:

Gönderen burada , bir topluluk karşılık gelir beklenen genelleme hatası varyansı:

Nerede p(x)iki bağımsız tohumlardan aynı veriler üzerinde eğitimli iki randomize modellerin öngörüleri arasında Pearson korelasyon katsayısıdır. RF'deki DT sayısını arttırırsak M, grubun varyansı ne zaman azalır ρ(x)<1. Bu nedenle, bir topluluğun varyansı, bireysel bir modelin varyansından kesinlikle daha küçüktür.

Özet olarak, bir topluluktaki bireysel randomize modellerin sayısının arttırılması, genelleme hatasını asla arttırmayacaktır.


1
Leo Breiman ve teorisinin söylediği kesinlikle bu, ama ampirik olarak kesinlikle abartıyorlarmış gibi görünüyor. Örneğin, şu anda 0,02'lik 10 kat CV MSE'ye sahip bir modelim var ancak temel gerçeğe karşı ölçüldüğünde CV MSE 0,4. OTOH ağaç derinliğini ve ağaç sayısını azaltırsam, model performansı önemli ölçüde artar.
Hack-R,

4
Eğer ağaç derinliğini düşürürseniz farklı bir durum söz konusudur çünkü normalleştirme ekliyorsunuzdur, bu aşırı yüklenmeyi azaltır. Parametrelerin geri kalanını değiştirmeden tutarken, ağaç sayısını artırırken MSE'yi çizmeye çalışın. Yani, y ekseninde MSE ve x ekseninde num_tress var. Daha fazla ağaç eklerken, hatanın hızlı bir şekilde azaldığını göreceksiniz ve ardından bir plato var; ama asla artmayacak.
tashuhka

9

Çapraz onaylanmış kontrol etmek isteyebilirsiniz - makine öğrenmesi dahil birçok şey için bir stachexchange web sitesi.

Özellikle, bu soru (tam olarak aynı başlık ile) zaten birçok kez cevaplandı. Bu bağlantıları kontrol edin: /stats//search?q=random+forest+overfit

Ama size kısa cevap verebilirim: evet, çok fazla uyuşmuyor, ve bazen ormanınızdaki ağaçların karmaşıklığını kontrol etmeniz gerekebilir ya da çok fazla büyüdüklerinde budamaya ihtiyaç duyarsınız - ama bu sizin kullandığınız kütüphaneye bağlıdır orman Örneğin, randomForestR'de sadece karmaşıklığı kontrol edebilirsiniz


3
  1. Rastgele Orman kıyafeti giyer.
  2. Rastgele Orman, modele daha fazla ağaç eklendiğinde genelleme hatasını arttırmıyor. Genelleştirme varyansı, daha fazla ağaç kullanıldığında sıfıra gidecek.

Çok basit bir deney yaptım. Sentetik veriyi oluşturdum:

y = 10 * x + noise

İki Rastgele Orman modeli yetiştirdim:

  • biri dolu ağaçlı
  • budanmış ağaçları olan bir

Dolu ağaçlı modelde daha düşük tren hatası vardır, budama ağaçlı modelden daha yüksek test hatası vardır. İki modelin de yanıtları:

tepkiler

Aşırı uyarmanın açık bir kanıtı. Sonra üzerine takılan modelin hiper-parametrelerini aldım ve her adım 1 ağacına eklerken hatayı kontrol ettim. Aşağıdaki grafiği aldım:

büyüyen ağaçlar

Gördüğünüz gibi, daha fazla ağaç eklenirken üst üste binme hatası değişmiyor ancak model çok fazla takılıyor. İşte yaptığım denemenin bağlantısı .


1

YAPISI VERİ TABANI -> ÖLÇME OOB HATALAR

İş pratikimde ilginç RF aşırı yüklenme vakası buldum. Veriler yapılandırıldığında RF, OOB gözlemlerine aşırı güvenir.

Detay:

Her bir saat için elektrik spot piyasasında elektrik fiyatlarını tahmin etmeye çalışıyorum (her bir veri kümesi satırı o saat için fiyat ve sistem parametreleri (yük, kapasiteler vs.) içermektedir).
Elektrik fiyatları gruplar halinde oluşturulmaktadır (bir seferde bir sabitlemede elektrik piyasasında oluşturulan 24 fiyat).
Bu nedenle, her ağaç için OOB obsesi, saat setinin rastgele altkümeleridir, ancak sonraki 24 saati önceden tahmin ederseniz, hepsini bir kerede yaparsınız (ilk anda tüm sistem parametrelerini alırsanız, o zaman 24 fiyatı tahmin edersiniz, o zaman üreten bir sabitleme vardır.) Bu fiyatlar), bu nedenle ertesi gün için OOB tahminleri yapmak daha kolaydır. OOB obsesi 24 saatlik bloklarda yer almamakta, ancak düzgün bir şekilde dağılmaktadır, çünkü tahmin hatalarının bir otomatik korelasyonu olduğundan, eksik saatlerin tamamı için eksik olan tek bir saat için fiyatı tahmin etmek daha kolaydır.

hatayla otomatik korelasyon durumunda tahmin edilmesi daha kolay:
bilinen, bilinen, tahmin, bilinen, tahmin - OBB davası
daha zor:
bilinen, bilinen, bilinen, tahmin, tahmin - gerçek dünya tahmin durumu

Umarım ilginç

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.