Veri setimi kabaca 4000 müşteriyle, gruplardan birinin yaklaşık% 15 oranında olduğu iki gruba ayırmak için aşırı örnekleme ve yetersiz örnekleme kombinasyonu yapmak istiyorum.
SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) ve ROSE ( http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf ), ancak bunların her ikisi de mevcut gözlemleri ve örneğin kNN'yi kullanarak yeni sentetik örnekler oluşturur.
Ancak, müşterilerle ilişkili özelliklerin çoğu kategorik olduğundan, bunun doğru yol olduğunu düşünmüyorum. Örneğin, Bölge_A ve Bölge_B gibi birçok değişkenim birbirini dışlar, ancak kNN kullanılarak yeni gözlemler Bölge_A ve Bölge_B'ye yerleştirilebilir. Bunun bir sorun olduğunu kabul ediyor musunuz?
Bu durumda - mevcut gözlemleri çoğaltarak R'de örnekleme nasıl yapılır? Yoksa bunu yapmanın yanlış yolu mu?