Bilgisayar bilimi geçmişim var ama internette problem çözerek kendime veri bilimini öğretmeye çalışıyorum.
Son birkaç haftadır bu problem üzerinde çalışıyorum (yaklaşık 900 satır ve 10 özellik). Başlangıçta lojistik regresyon kullanıyordum ama şimdi rastgele ormanlara geçtim. Rasgele orman modelimi eğitim verilerimde çalıştırdığımda auc için gerçekten yüksek değerler elde ediyorum (>% 99). Ancak aynı modeli test verilerinde çalıştırdığımda sonuçlar o kadar iyi değil (Yaklaşık% 77 doğruluk). Bu, eğitim verilerini çok fazla doldurduğuma inanmamı sağlıyor.
Rastgele ormanlarda uyumu önlemeyle ilgili en iyi uygulamalar nelerdir?
Geliştirme ortamım olarak r ve rstudio'yu kullanıyorum. randomForest
Paketi kullanıyorum ve tüm parametreler için varsayılanları kabul ettim