Üzerinde çalıştığım bir proje için farklı sınıflandırma yöntemleri araştırıyorum ve Rastgele Ormanları denemekle ilgileniyorum. Ben ilerlerken kendimi eğitmeye çalışıyorum ve CV topluluğu tarafından sağlanan yardımları takdir ediyorum.
Verilerimi eğitim / test setlerine ayırdım. R'deki rastgele ormanlarla yapılan deneylerden (randomForest paketini kullanarak), daha küçük sınıfım için yüksek yanlış sınıflandırma oranı ile ilgili sorun yaşıyorum. Rasgele ormanların dengesiz veriler üzerindeki performansıyla ilgili bu makaleyi okudum ve yazarlar rasgele ormanları kullanırken sınıf dengesizliği ile başa çıkmak için iki yöntem sundular.
1. Ağırlıklı Rastgele Ormanlar
2. Dengeli Rasgele Ormanlar
R paketi sınıfların ağırlıklandırmasına izin vermez (R yardım forumlarından, classwt parametresinin düzgün performans göstermediğini ve gelecekteki bir hata düzeltmesi olarak programlandığını okudum), bu yüzden seçenek 2 ile kaldım. rastgele ormanın her bir yinelemesi için her sınıftan örneklenen nesne sayısı.
Gelecekteki verilerle kötü performansa yol açan daha büyük sınıf hakkında çok fazla bilgi kaybedeceğimi hissettiğim için, rastgele ormanlar için eşit örnek boyutları ayarlama konusunda tedirgin hissediyorum. Daha büyük sınıfın altörneklenmesi sırasındaki yanlış sınıflandırma oranları geliştiğini gösterdi, ancak rastgele ormanlardaki dengesiz sınıf büyüklükleriyle başa çıkmanın başka yolları olup olmadığını merak ediyordum?