Bu soru biraz basit gelirse özür dilerim.
R'da çoklu lineer regresyon modeli için LASSO değişken seçimini kullanmaya çalışıyorum, biri kategorik (15 soruna neden olur?) Olan 15 öngörücüm var. ve ayarlarımı yaptıktan sonra aşağıdaki komutları kullanıyorum:y
model = lars(x, y)
coef(model)
Benim sorunum kullandığım zaman coef(model)
. Bu, her seferinde bir ekstra tahminci eklenerek, 15 satırlı bir matris döndürür. Ancak hangi modelin seçileceğine dair bir öneri yoktur. Bir şey mi kaçırdım? Sadece bir " en iyi " model geri dönmek için lars paketini alabileceğim bir yol var mı ?
glmnet
Bunun yerine kullanılmasını öneren başka yayınlar var ama bu daha karmaşık görünüyor. Bir deneme, aynı ve kullanarak aşağıdaki gibidir . Burada bir şey mi kaçırdım? y
cv = cv.glmnet(x, y)
model = glmnet(x, y, type.gaussian="covariance", lambda=cv$lambda.min)
predict(model, type="coefficients")
Son komut, bazıları = 0 olmasına rağmen değişkenlerimin bir listesini verir, çoğu katsayılıdır. Bu, LASSO tarafından seçilen " en iyi " modelin doğru seçimi mi? O zaman katsayıları olan tüm değişkenlerimle doğrusal bir modele uyarsamnot=0
, çok benzer, ancak biraz farklı, katsayı tahminleri alırım. Bu farkın bir nedeni var mı? Doğrusal modeli, LASSO tarafından seçilen bu değişkenlerle tekrar takıp son modelim olarak kabul etmek kabul edilebilir mi? Aksi halde, anlamlılık için herhangi bir p değeri göremiyorum. Bir şey mi kaçırdım?
mu
type.gaussian="covariance"
Bunun glmnet
çoklu lineer regresyon kullandığından emin olun ?
Değişkenlerin otomatik olarak normalleşmesi katsayıları etkiler mi? LASSO prosedürüne etkileşim terimlerini dahil etmenin bir yolu var mı?
Bu prosedürü, LASSO'nun, herhangi bir şeyi değiştirirse önemli bir çıkarım / tahmin için kullanılacak olan herhangi bir modelden daha fazla nasıl kullanılacağının bir göstergesi olarak kullanacağını düşünüyorum.
Bunu okumak için zaman ayırdığınız için teşekkür ederiz. LASSO / lars / glmnet ile ilgili genel yorumlar da büyük memnuniyetle karşılanacaktır.