Kategorik değişkenleri kodlamanın iki farklı yolu vardır. Diyelim ki bir kategorik değişken n değerine sahiptir. Tek sıcak kodlama onu n değişkenine, kukla kodlama onu n-1 değişkenine dönüştürür . Eğer her birinin n değeri olan k kategorik değişkenleri varsa . Bir sıcak kodlama kn değişkenleriyle sona ererken , yapay kodlama kn-k değişkenleriyle sona erer .
Tek bir sıcak kodlama için, kesişmenin modelin ses çıkarmamasına neden olan eşliklilik sorununa yol açabileceğini duydum. Birisi " kukla değişken tuzağı " diyor.
Sorularım:
Scikit-learn'ın doğrusal regresyon modeli, kullanıcıların müdahaleyi devre dışı bırakmalarını sağlar. Yani bir sıcak kodlama için her zaman fit_intercept = False ayarlamalı mıyım? Sahte kodlama için, fit_intercept her zaman True olarak ayarlanmalı mı? Web sitesinde herhangi bir "uyarı" görmüyorum.
Tek sıcak kodlama daha fazla değişken ürettiğinden, sahte kodlamadan daha fazla serbestlik derecesine sahip midir?