6 kategori arasında ayrım yapmak için Random Forest ile bir sınıflandırma modeli eğitimi alıyorum. İşlem verilerim yaklaşık 60k + gözlem ve 35 değişkene sahip. İşte yaklaşık olarak nasıl göründüğüne bir örnek.
_________________________________________________
|user_id|acquisition_date|x_var_1|x_var_2| y_vay |
|-------|----------------|-------|-------|--------|
|111 | 2013-04-01 | 12 | US | group1 |
|222 | 2013-04-12 | 6 | PNG | group1 |
|333 | 2013-05-05 | 30 | DE | group2 |
|444 | 2013-05-10 | 78 | US | group3 |
|555 | 2013-06-15 | 15 | BR | group1 |
|666 | 2013-06-15 | 237 | FR | group6 |
Model oluşturulduktan sonra, son birkaç haftanın gözlemlerini almak istiyorum. Sistemde değişiklikler olduğu için, daha yeni gözlemler tahmin etmek istediğim mevcut gözlemlerin ortamına daha yakından benzeyecektir. Bu nedenle, Rastgele Orman'ın son gözlemlere daha fazla önem vermesi için bir ağırlık değişkeni yaratmak istiyorum.
R'deki randomForest paketinin gözlem başına ağırlıkları kaldırabildiğini bilen var mı?
Ayrıca, ağırlık değişkenini oluşturmak için iyi bir yöntem nedir önerebilir misiniz? Örneğin, verilerim 2013'ten geldiğinden, ay sayısını tarihten ağırlık olarak alabileceğimi düşünüyordum. Bu yöntemle ilgili bir sorun gören var mı?
Şimdiden çok teşekkürler!