Gruplandırılmış verilerde rastgele orman


11

Hiyerarşik bir yapıya sahip yüksek boyutlu gruplanmış verilerde (50 sayısal giriş değişkeni) rastgele orman kullanıyorum. Veriler, 70 farklı nesnenin 30 pozisyonunda 6 replikasyon ile toplanmış ve sonuçta 12600 veri noktası elde edilmiştir ve bunlar bağımsız değildir.

Oob hatası, eğitim sırasında bir nesneden veri bırakırken ve sonra dışarıda bırakılan nesnenin sonucunu eğitimli rastgele ormanla tahmin ederken aldığımız hatadan çok daha küçük olduğu için rastgele orman, verilerin üzerine sığıyor gibi görünüyor. Dahası, artıkları ilişkilendirdim.

Rastgele orman bağımsız veriler beklediğinden aşırı uydurmaya neden olduğunu düşünüyorum. Rasgele ormana verilerin hiyerarşik yapısı hakkında bilgi vermek mümkün müdür? Yoksa güçlü bir etkileşim yapısı ile yüksek boyutlu gruplanmış verileri işleyebilen başka bir güçlü topluluk veya büzülme yöntemi var mı?

Herhangi bir ipucu nasıl daha iyi yapabilirim?


Hiyerarşik verilerin doğası nedir? Verilerin yapraklarını veri noktalarınız olarak kullanmanıza izin veriyor mu?
casperOne

1
Önyüklemeyi bireyden ziyade en yüksek hiyerarşide düşündünüz mü?
generic_user

Yanıtlar:


1

Partiye de çok geç kaldım, ama bunun birkaç yıl önce yaptığım bir şeyle ilgili olabileceğini düşünüyorum. Bu eser burada yayınlandı:

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0093379

ve karar ağaçları topluluğuna değişken korelasyon ile uğraşmakla ilgilidir. Bu tür sorunlarla başa çıkmak için birçok öneriye işaret eden bibliyografyaya bir göz atmalısınız ("genetik" alanda yaygındır).

Kaynak kodu burada mevcuttur (ancak artık gerçekte korunmamaktadır).


-1

Rastgele Ormanın Aşırı Takılması farklı nedenlerden kaynaklanabilir ve RF parametrelerine oldukça bağlıdır. Mesajınızı RF'nizi nasıl ayarladığınız net değil.

İşte size yardımcı olabilecek bazı ipuçları:

  1. Ağaç sayısını artırın

  2. Ağaçların Maksimum Derinliğini ayarlayın. Bu parametre büyük ölçüde eldeki probleme bağlıdır. Daha küçük ağaçlar kullanmak aşırı takma problemine yardımcı olabilir.


2
Partiye çok geç, ancak bu cevap veri kümesinin hiyerarşik yapısı nedeniyle herhangi bir sorunu çözmeyecek.
SX'ten memnun olmayan cbeleites
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.