Nominal veya sıralı verilerdeki kategori sayısını azaltmak için bir yöntem bulmakta zorlanıyorum.
Örneğin, bir dizi nominal ve sıralı faktöre sahip bir veri kümesi üzerinde bir regresyon modeli oluşturmak istediğimi varsayalım. Bu adımla ilgili hiçbir sorunum olmasa da, genellikle nominal bir özelliğin eğitim setinde gözlemsiz olduğu, ancak daha sonra doğrulama veri kümesinde bulunduğu durumlarla karşılaşıyorum. Bu, modelin (şimdiye kadar) görülmemiş vakalarla sunulduğu zaman doğal olarak hataya yol açar. Kategorileri birleştirmek istediğim başka bir durum, sadece az sayıda gözlem içeren çok fazla kategori olduğunda.
Yani sorularım:
- Birçok nominal (ve sıralı) kategoriyi temsil ettikleri önceki gerçek dünya arka plan bilgilerine dayanarak birleştirmenin en iyi yol olabileceğini fark etsem de, sistematik yöntemler (
R
tercihen paketler) var mı? - Kesme eşikleri vb. İle ilgili hangi yönergeleri ve önerileri önerirsiniz?
- Edebiyatta en popüler çözümler nelerdir?
- Küçük nominal kategorileri yeni bir "DİĞER" kategorisiyle birleştirmekten başka stratejiler var mı?
Ayrıca başka önerileriniz varsa lütfen çekinmeyin.