Rastgele Orman'da her ağaç, verilerin benzersiz bir takviye örneğine paralel olarak büyütülür. Her takviye örneğinin benzersiz gözlemlerin yaklaşık% 63'ünü içermesi beklendiğinden, bu, ağacın test edilmesi için kullanılabilecek gözlemlerin yaklaşık% 37'sini dışarıda bırakır.
Şimdi, Stokastik Degrade benzer bir tahmini var gibi görünüyor :
Bag.fraction 0 değerinden daha büyük olarak ayarlanırsa (0,5 önerilir) gbm, tahmini performanstaki iyileşmenin çanta dışı bir tahminini hesaplar. Bir sonraki regresyon ağacının seçiminde kullanılmayan gözlemlerde sapmadaki azalmayı değerlendirir.
Kaynak: Ridgeway (2007) , bölüm 3.3 (sayfa 8).
Nasıl çalıştığını / geçerli olduğunu anlamada sorun yaşıyorum. Diyelim ki sıraya bir ağaç ekliyorum. Bu ağacı orijinal veri kümesinin rastgele bir alt örneğinde büyütüyorum. Bu tek ağacı, büyümek için kullanılmayan gözlemler üzerinde test edebilirim. Kabul. ANCAK , Artırma sıralı olduğundan, bu dışarıda kalan gözlemler için bir tahmin sağlamak için şimdiye kadar inşa edilmiş ağaçların tüm dizisini kullanıyorum . Ve önceki ağaçların çoğunun bu gözlemleri zaten görmüş olma ihtimali yüksektir. Yani model her turda RF gibi görünmeyen gözlemler üzerinde gerçekten test edilmiyor değil mi?
Peki, buna nasıl "torba dışı" hata tahmini denir? Bana göre, gözlemler zaten görüldüğü için herhangi bir çantanın "dışında" görünmüyor mu?