LASSO'da kategorik öngörücüler nasıl tedavi edilir

Bazı kategorik değişken öngörücülere ve bazı sürekli olanlara sahip bir LASSO kullanıyorum. Kategorik değişkenler hakkında bir sorum var. Anladığım ilk adım, her birini aptallara bölmek, adil cezalandırma için standartlaştırmak ve sonra gerilemek. Kukla değişkenleri tedavi etmek için çeşitli seçenekler ortaya çıkar:

Her bir faktör için mankenlerden biri hariç hepsini dahil edin ve bunu bir referans seviyesi olarak bırakın. Sahte katsayının yorumlanması, hariç tutulan "referans" kategorisine göredir. Kesme noktası artık referans kategorisi için ortalama yanıttır.
Her faktördeki değişkenleri, tümü hariç tutulacak veya hepsi bir arada olmayacak şekilde gruplayın. @Glen_b'in burada önerdiğine inanıyorum :

Normalde evet, faktörlerinizi bir arada tutarsınız. Glmnet dahil olmak üzere bunu yapabilen birkaç R paketi var
@ Andrew M tarafından önerildiği gibi tüm seviyeleri dahil edin burada :
Varsayılan olarak her faktörün bir seviyesini (tedavi kodlaması) dışarıda bırakan varsayılan kontrast işlevini de değiştirmek isteyebilirsiniz. Ancak kement cezası nedeniyle, bu artık tanımlanabilirlik için gerekli değildir ve aslında seçilen değişkenlerin yorumlanmasını daha karmaşık hale getirir. Bunu yapmak için,
```
contr.Dummy <- function(contrasts, ...){
   conT <- contr.treatment(contrasts=FALSE, ...)
   conT
}
options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy'))
```
Şimdi, bir faktörün seviyeleri ne olursa olsun, bu belirli seviyelerin, atlanan tüm seviyelere karşı önemli olduğunu düşündüren bir şey olduğunu düşünebilirsiniz. Makine öğreniminde, bu kodlamanın tek sıcak kodlama olarak adlandırıldığını gördüm.

Sorular:

Bu yaklaşımların her biri altındaki kesişme ve katsayıların yorumlanması nedir ?
Bunlardan birini seçerken dikkat edilmesi gereken noktalar nelerdir?
Kukla katsayıların ölçeğini kaldırır mıyız ve sonra bunları baştan sona geçmenin bir değişikliği olarak mı yorumlarız?

— Hatşepsut
kaynak

$\boldsymbol{\beta}$

Özel sorularınıza cevap olarak:

(1) LASSO, katsayılar için bir tahmin yöntemidir , ancak katsayıların kendileri, regresyonunuz için ilk model denklemi ile tanımlanır. Bu haliyle, katsayıların yorumlanması standart bir lineer regresyon ile aynıdır; açıklayıcı değişkenlerdeki değişiklikler nedeniyle beklenen yanıtın değişim oranlarını temsil ederler.

(2) Yukarıdaki literatürde değişkenlerin gruplandırılması, ancak bir referans kategorisi tutulması önerilmektedir. Bu, kategorik bir değişkenin varlığını, onu kaldıran ancak yine de bir kesme terimi olan bir modelle karşılaştırdığınızı varsayar.

(3) Yukarıda belirtildiği gibi, tahmin yöntemi, model ifadesi ile belirlenen katsayıların yorumunu etkilemez.

— Monica'yı eski durumuna getir
kaynak