30 bağımsız değişken kümesinden sürekli bir bağımlı değişken için tahmincileri bulmak istiyorum. R'deki glmnet paketinde uygulanan Lasso regresyonunu kullanıyorum . İşte bazı boş kod:
# generate a dummy dataset with 30 predictors (10 useful & 20 useless)
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)
# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1
# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res
Benim sorum, çıktının nasıl yorumlanacağıdır:
Son çıktıda sıfırdan farklı bir katsayı gösteren tüm tahmincilerin bağımlı değişkenle ilişkili olduğunu söylemek doğru mudur?
Bu bir dergi yayını bağlamında yeterli bir rapor olur mu? Yoksa katsayıların önemi için test istatistikleri sağlaması bekleniyor mu? (İçerik insan genetiğidir)
Önem iddia etmek için p değerleri veya başka bir test istatistiği hesaplamak mantıklı mıdır? Bu nasıl mümkün olabilir? R'de bir prosedür uygulanıyor mu?
Her öngörücü için basit bir regresyon grafiği (doğrusal bir uyumla çizilen veri noktaları) bu verileri görselleştirmek için uygun bir yol olabilir mi?
Belki birileri Lasso'nun bazı gerçek veriler bağlamında kullanıldığını ve bunun bir dergide nasıl bildirileceğini gösteren yayınlanmış makalelerin bazı kolay örneklerini sunabilir?
cv
Tahmin adımı için de kullanamaz mısın?