Ben R glmnet kullanarak bir LASSO modeli eğitim ve test düzgün yaklaşmak merak ediyorum?
- Özellikle, harici bir test veri setinin eksikliği LASSO modelimi test etmek için çapraz doğrulamayı (veya benzer bir yaklaşımı) kullanmamı gerektiriyorsa bunu nasıl yapacağımı merak ediyorum .
Senaryomu yıkayım:
Glmnet modelimi bilgilendirmek ve eğitmek için sadece bir veri setim var. Sonuç olarak, modelimi test etmenin bir yolunu oluşturmak için verilerimi bölmek için çapraz doğrulamayı kullanmam gerekecek.
Paket ayrıntılarınacv.glmnet
göre zaten kullanıyorum :
Glmnet için k-kat çapraz doğrulaması yapar, bir grafik oluşturur ve lambda için bir değer döndürür.
Çapraz doğrulama
cv.glmnet
sadece en iyi lambda'yı seçmek için mi yapılır , yoksa daha genel bir çapraz doğrulama prosedürü olarak mı işlev görür?- Başka bir deyişle, yine de modelimi "test etmek" için başka bir çapraz doğrulama adımı gerçekleştirmem gerekiyor mu?
"Evet, yaparım" varsayımı ile çalışıyorum.
Bu durumda, modelimi çapraz doğrulamaya nasıl yaklaşırım cv.glmnet
?
Bunu manuel olarak yapmak zorunda mıyım yoksa
caret
işlev belki de glmnet modelleri için yararlı mı?? ... ı ile CV bir "iç döngü" kullanımı fazlası cross doğrulama iki eş merkezli "döngü" kullanımı mı
cv.glmnet
iyi lambda değeri belirlemek için olan her bir k bir "dış döngü" kıvrımları çapraz doğrulama işleme k misli ?Zaten çapraz doğrulama
cv.glmnet
modelimin çapraz doğrulamasını yaparsam, "en iyi" modeli ("en iyi" lambda değerinden),cv.glmnet
aksi takdirde çapraz doğrulamanın her bir katındaki her modelden nasıl ayırırım?- Not: en az 1 SE içinde MSE üreten bir lambda ile ilişkili model olarak ben tanımlayan ediyorum "en iyi" modeli ... işte bu
$lambda.1se
içindecv.glmnet
modelin.
- Not: en az 1 SE içinde MSE üreten bir lambda ile ilişkili model olarak ben tanımlayan ediyorum "en iyi" modeli ... işte bu
Bağlam:
Ağaç çapı ("D"), D ^ 2 ve tür ("faktör (SPEC)") dayalı ağaç yaşı ("yaş") tahmin etmeye çalışıyorum. sonuçta elde edilen denklem: Age ~ D + factor(SPEC) + D^2
]. ~ 50K veri satırım var, ancak veri boyuna (zaman içinde bireyleri izler) ve ~ 65 türden oluşur.