K seviyeli kategorik değişkenlerin kukla kodlamada k-1 değişkenleri ile kodlanması gerektiğinin farkındayım (benzer şekilde çok değerli kategorik değişkenler için). Çoğunlukla doğrusal regresyon, cezalandırılmış doğrusal regresyon (Kement, Ridge, Elastik Ağ), ağaç tabanlı (rastgele ormanlar) için farklı regresyon yöntemleri için kukla kodlama üzerinde bir sıcak kodlama (yani bunun yerine k değişkenlerini kullanarak) ne kadar bir sorunun ne olduğunu merak ediyordum. , gradyan artırma makineleri).
Doğrusal regresyonda çoklu-eş-doğrusallık problemlerinin oluştuğunu biliyorum (pratikte herhangi bir sorun olmadan OHE kullanarak doğrusal regresyon uyguladım).
Bununla birlikte, kukla kodlamanın hepsinde kullanılması gerekiyor mu ve tek sıcak kodlama kullanılıyorsa sonuçlar ne kadar yanlış olur?
Odak noktam, çoklu (yüksek kardinalite) kategorik değişkenleri olan regresyon modellerinde tahmin üzerine, bu yüzden güven aralıklarıyla ilgilenmiyorum.