LASSO değişken iz grafiklerini yorumlama


15

Ben yeniyim glmnetpaketin ve ben sonuçların nasıl yorumlanacağı hala emin değilim. Birisi lütfen aşağıdaki izleme planını okumama yardımcı olabilir mi?

Grafik aşağıdakileri çalıştırarak elde edildi:

library(glmnet)
return <- matrix(ret.ff.zoo[which(index(ret.ff.zoo)==beta.df$date[2]), ])
data   <- matrix(unlist(beta.df[which(beta.df$date==beta.df$date[2]), ][ ,-1]), 
                 ncol=num.factors)
model  <- cv.glmnet(data, return, standardize=TRUE)

op <- par(mfrow=c(1, 2))
plot(model$glmnet.fit, "norm",   label=TRUE)
plot(model$glmnet.fit, "lambda", label=TRUE)
par(op)

resim açıklamasını buraya girin

Yanıtlar:


21

Her iki grafikte de her renkli çizgi, modelinizde farklı bir katsayı tarafından alınan değeri temsil eder. Lambda , normalleştirme terimine (L1 normu) verilen ağırlıktır, bu nedenle lambda sıfıra yaklaştıkça, modelinizin kayıp işlevi OLS kaybı işlevine yaklaşır. Bu betonu yapmak için LASSO kaybı işlevini belirtmenin bir yolu:

βlbirssÖ=argmin [R,SS(β)+λ*L1-Norm(β)]

Bu nedenle, lambda çok küçük olduğunda, LASSO çözeltisi OLS çözeltisine çok yakın olmalıdır ve tüm katsayılarınız modeldedir. Lambda büyüdükçe, düzenlenme terimi daha büyük etkiye sahiptir ve modelinizde daha az değişken göreceksiniz (çünkü daha fazla katsayı sıfır değere sahip olacaktır).

Yukarıda bahsettiğim gibi, L1 normu LASSO için düzenleme terimidir. Belki ona bakmanın daha iyi bir yolu, x ekseninin L1 normunun alabileceği maksimum izin verilen değer olmasıdır . Yani küçük bir L1 normunuz olduğunda, çok fazla düzenliliğiniz vardır. Bu nedenle, L1 sıfır normu boş bir model verir ve L1 normu artırdıkça, değişkenler katsayıları sıfırdan farklı değerler aldıkça modele "girer".

Soldaki çizim ve sağdaki çizim temel olarak aynı şeyi gösteriyor, sadece farklı ölçeklerde.


2
Çok temiz cevap, teşekkürler! Yukarıdaki grafiklerden, yani son bir modelden "en iyi öngörücüler" in çıkarılması mümkün müdür?
Mayou

4
Hayır, bunun için çapraz doğrulama veya başka bir doğrulama prosedürü yapmanız gerekir; size L1 normunun hangi değerinin (veya eşdeğer olarak, hangi log (lambda)) modelin en iyi tahmin yeteneğine sahip olduğunu söyleyecektir.
JAW

11
En güçlü öngörücülerinizi belirlemeye çalışıyorsanız, grafiği, modele erken giren değişkenlerin en öngörücü olduğuna ve daha sonra modele giren değişkenlerin daha az önemli olduğuna dair kanıt olarak yorumlayabilirsiniz. "En iyi model" i istiyorsanız, genellikle bu çapraz doğrulama ile bulunur. Glmnet paketini kullanarak bunu elde etmenin yaygın bir yöntemi burada önerildi: stats.stackexchange.com/a/68350/8451 . Ben kuvvetle : Yüklemek serbesttir ESLII kısa Kement bölüm (3.4.2 ve 3.4.3), okumak tavsiye www-stat.stanford.edu/~tibs/ElemStatLearn
David Marx

@David Marx, planın üstündeki sayılar ne anlama geliyor? çapraz doğrulama ile en iyi model nasıl seçilir.
jeza

@DavidMarx bir süredir ama bunu merak eden herkes için, bu ağırlıktaki sıfır değerli olmayan katsayıların sayısıdır.
Ian Belcher
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.