Basitçe söylemek gerekirse, kategorik özelliğinizin bir düzeyi (burada konum), regresyon için kukla kodlama sırasında referans grubu haline gelir ve gereksizdir. I formunu quoting burada , "K kategorileri veya seviyelerinin kategorik değişken, genellikle K-1 kukla değişkenlerin bir dizisi olarak bir gerileme girer. Bu miktarlarda seviyesi aracı üzerinde doğrusal bir hipoteze."
Bu zaten bu çok güzel istatistiklerde tartışılıyor .
Coursera'da Yandex'in hala şüpheleriniz varsa bu konuyu daha ayrıntılı olarak ele alan ileri bir kurs olduğu söylendi, buraya bakın . Kurs içeriğini her zaman ücretsiz olarak denetleyebileceğinizi unutmayın. ;-)
Bir başka güzel gönderide istatistiksel bakış açısı ile örnekler sürü ile ayrıntılı bir açıklama istiyorum değilse sınırlı olmak sadece kodlama kukla, bkz bu UCLA'de (R)
Kullanıyorsanız pandas.get_dummies
, bir parametre olduğunu unutmayın, drop_first
böylece ilk seviyeyi kaldırarak k-1 mankenlerini k kategorik seviyelerden alıp alamayacağınızı unutmayın. Lütfen default = False
referansın bırakılmadığını ve k kategorik seviyelerden k aptallar yaratıldığını unutmayın!