Hiyerarşik bir yapıya sahip yüksek boyutlu gruplanmış verilerde (50 sayısal giriş değişkeni) rastgele orman kullanıyorum. Veriler, 70 farklı nesnenin 30 pozisyonunda 6 replikasyon ile toplanmış ve sonuçta 12600 veri noktası elde edilmiştir ve bunlar bağımsız değildir.
Oob hatası, eğitim sırasında bir nesneden veri bırakırken ve sonra dışarıda bırakılan nesnenin sonucunu eğitimli rastgele ormanla tahmin ederken aldığımız hatadan çok daha küçük olduğu için rastgele orman, verilerin üzerine sığıyor gibi görünüyor. Dahası, artıkları ilişkilendirdim.
Rastgele orman bağımsız veriler beklediğinden aşırı uydurmaya neden olduğunu düşünüyorum. Rasgele ormana verilerin hiyerarşik yapısı hakkında bilgi vermek mümkün müdür? Yoksa güçlü bir etkileşim yapısı ile yüksek boyutlu gruplanmış verileri işleyebilen başka bir güçlü topluluk veya büzülme yöntemi var mı?
Herhangi bir ipucu nasıl daha iyi yapabilirim?