Kategorik değişkenlerle aşırı örnekleme

Veri setimi kabaca 4000 müşteriyle, gruplardan birinin yaklaşık% 15 oranında olduğu iki gruba ayırmak için aşırı örnekleme ve yetersiz örnekleme kombinasyonu yapmak istiyorum.

SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) ve ROSE ( http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf ), ancak bunların her ikisi de mevcut gözlemleri ve örneğin kNN'yi kullanarak yeni sentetik örnekler oluşturur.

Ancak, müşterilerle ilişkili özelliklerin çoğu kategorik olduğundan, bunun doğru yol olduğunu düşünmüyorum. Örneğin, Bölge_A ve Bölge_B gibi birçok değişkenim birbirini dışlar, ancak kNN kullanılarak yeni gözlemler Bölge_A ve Bölge_B'ye yerleştirilebilir. Bunun bir sorun olduğunu kabul ediyor musunuz?

Bu durumda - mevcut gözlemleri çoğaltarak R'de örnekleme nasıl yapılır? Yoksa bunu yapmanın yanlış yolu mu?

unbalanced-classes resampling oversampling

— pir
kaynak

Sadece 4000 gözleminiz varsa neden alt örneklemeye ihtiyacınız var?

— kjetil b halvorsen

Sınıflarımın kabaca eşit bir payına sahip olmak için veri setimi dengelemek istiyorum. Verilerimi şimdi olduğu gibi kullanırsam, modeller tüm gözlemleri çoğunluk sınıfı olarak tahmin edecektir.

— pir

ROSE ve SMOTE, kategorik değişkenleri işlemek için tasarlanmıştır; bu nedenle, kategorik değişkenleriniz ikili biçimde ifade edilmedikçe, normalde sentetik gözlemlerin birbirini dışlayan kategorik özellikler atandığından endişelenmenize gerek yoktur. Öyleyse, bunları her zaman faktör olarak yeniden yapılandırabilirsiniz.

İki bölge örneğinizde, "A" ve "B" olmak üzere iki düzeyli yeni bir bölge değişkeni oluşturacaksınız. Kayıtlarınız orijinal sütunlarınıza başvurarak uygun değerleri alacaktır.

Şimdi, yeni sentetik gözlemlerinizin birbiriyle çelişen çok sayıda değişkene (örneğin, sentetikObservation.isPig = 1 ve sentetikObservation.hasWings = 1) yayıldığı için çakışan kategoriler oluşturabileceğiniz bir durumdaysanız, her zaman bazı ek veri ayıklama yapabilirsiniz Bu tür sapmaları temizlemek için model tahmininizi yapmadan önce.

Ayrıca, veri kümenizde yaklaşık 600 olay gözlemi bulunduğundan , çoğunluk sınıfını örnekleme yoluyla elde edilen sentetik gözlemleri kullanmanın potansiyel faydalarını düşünebilirsiniz ?

— habu
kaynak