200.000'den fazla örnek ve bir örnek başına yaklaşık 50 özellik içeren bir veri kümesi üzerinde çalışıyorum: 10 sürekli değişken ve diğerleri ~ 40 kategorik değişkenlerdir (ülkeler, diller, bilimsel alanlar vb.). Bu kategorik değişkenler için, örneğin 150 farklı ülke, 50 dil, 50 bilimsel alan vb. Var.
Şimdiye kadar benim yaklaşımım:
Mümkün olan birçok değeri olan her kategorik değişken için, yalnızca bu değeri alan 10000'den fazla örneğe sahip olanı alın. Bu 150 yerine 5-10 kategoriye düşer.
Her kategorik kategori için kukla değişken oluşturun (her örnek için 10 ülke varsa, 10 büyüklüğünde bir ikili vektör ekleyin).
Bu verilerle rasgele bir orman sınıflandırıcı besleyin (parametreleri vb. Çapraz onaylayın).
Şu anda bu yaklaşımla sadece% 65 doğruluk elde edebiliyorum ve daha fazlasını yapabileceğimi hissediyorum. Özellikle 1) 'den memnun değilim, çünkü sahip olduğum örnek sayısına göre "en az ilgili değerleri" keyfi olarak çıkarmamam gerektiğini hissediyorum çünkü bu daha az temsil edilen değerler daha ayırt edici olabilir. Öte yandan, RAM'im, tüm olası değerleri koruyarak verilere 500 sütun * 200000 satır ekleyemez.
Bu kadar kategorik değişkenlerle baş etmek için herhangi bir öneriniz var mı?