Bazı kategorik değişken öngörücülere ve bazı sürekli olanlara sahip bir LASSO kullanıyorum. Kategorik değişkenler hakkında bir sorum var. Anladığım ilk adım, her birini aptallara bölmek, adil cezalandırma için standartlaştırmak ve sonra gerilemek. Kukla değişkenleri tedavi etmek için çeşitli seçenekler ortaya çıkar:
Her bir faktör için mankenlerden biri hariç hepsini dahil edin ve bunu bir referans seviyesi olarak bırakın. Sahte katsayının yorumlanması, hariç tutulan "referans" kategorisine göredir. Kesme noktası artık referans kategorisi için ortalama yanıttır.
Her faktördeki değişkenleri, tümü hariç tutulacak veya hepsi bir arada olmayacak şekilde gruplayın. @Glen_b'in burada önerdiğine inanıyorum :
Normalde evet, faktörlerinizi bir arada tutarsınız. Glmnet dahil olmak üzere bunu yapabilen birkaç R paketi var
@ Andrew M tarafından önerildiği gibi tüm seviyeleri dahil edin burada :
Varsayılan olarak her faktörün bir seviyesini (tedavi kodlaması) dışarıda bırakan varsayılan kontrast işlevini de değiştirmek isteyebilirsiniz. Ancak kement cezası nedeniyle, bu artık tanımlanabilirlik için gerekli değildir ve aslında seçilen değişkenlerin yorumlanmasını daha karmaşık hale getirir. Bunu yapmak için,
contr.Dummy <- function(contrasts, ...){ conT <- contr.treatment(contrasts=FALSE, ...) conT } options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy'))
Şimdi, bir faktörün seviyeleri ne olursa olsun, bu belirli seviyelerin, atlanan tüm seviyelere karşı önemli olduğunu düşündüren bir şey olduğunu düşünebilirsiniz. Makine öğreniminde, bu kodlamanın tek sıcak kodlama olarak adlandırıldığını gördüm.
Sorular:
- Bu yaklaşımların her biri altındaki kesişme ve katsayıların yorumlanması nedir ?
- Bunlardan birini seçerken dikkat edilmesi gereken noktalar nelerdir?
- Kukla katsayıların ölçeğini kaldırır mıyız ve sonra bunları baştan sona geçmenin bir değişikliği olarak mı yorumlarız?