LASSO ve ileri / geri model seçiminin hem güçlü hem de sınırlamaları vardır. Hiçbir kapsamlı öneri yapılamaz. Simülasyon her zaman bunu ele almak için araştırılabilir.
Her ikisi de boyutsallık anlamında anlaşılabilir: model parametrelerinin sayısına ve gözlem sayısına atıfta bulunur . Modelleri geriye doğru model seçimini kullanarak sığdırabilseydiniz , muhtemelen sahip değildiniz . Bu durumda, "en uygun" model tüm parametreleri kullanan modeldir ... dahili olarak doğrulandığında! Bu sadece aşırı uydurma meselesidir.pnp ≫ n
Aşırı takma, model değerlendirmesi için bölünmüş numune çapraz validasyonu (CV) kullanılarak giderilir. Bunu tarif etmediğin için, sanmıyorum. Kademeli model seçiminin aksine, LASSO modeldeki parametre sayısını cezalandırmak için bir ayar parametresi kullanır. Tuning parametresini düzeltebilir veya bu değeri seçmek için karmaşık bir yinelemeli işlem kullanabilirsiniz. Varsayılan olarak , LASSO ikincisini yapar. Bu, tahmin MSE'sini en aza indirgemek için CV ile yapılır. Bu tür sofistike teknikler kullanan aşamalı model seçiminin herhangi bir uygulamasının farkında değilim, bir kriter olarak BIC bile iç doğrulama önyargısından muzdarip olurdu. Benim hesabımla, bu, otomatik olarak "kutudan çıkmış" kademeli model seçimi üzerinde LASSO kaldıraç sağlar.
Son olarak, aşamalı model seçiminin farklı regresörleri dahil etmek / hariç tutmak için farklı kriterleri olabilir. Belirli model parametrelerinin Wald testi veya sonuçtaki R ^ 2 modeli için p-değerlerini kullanırsanız, çoğunlukla dahili doğrulama önyargısı nedeniyle (yine CV ile düzeltilebilir) iyi sonuç vermezsiniz. Bu tür modellerin hala uygulanma eğiliminin şaşırtıcı olduğunu düşünüyorum. AIC veya BIC, model seçimi için çok daha iyi kriterlerdir.
Her yöntemle ilgili bir takım sorunlar vardır. Adım adım model seçiminin sorunları LASSO'dan çok daha iyi anlaşılır ve çok daha kötüdür. Sorunuzla ilgili gördüğüm temel sorun, tahmini değerlendirmek için özellik seçme araçlarını kullanmanızdır . Bunlar farklı görevlerdir. LASSO, özellik seçimi veya seyrek model seçimi için daha iyidir. Ridge regresyonu tüm değişkenleri kullandığı için daha iyi tahmin verebilir.
LASSO'nun en büyük gücü, adım adım regresyonda olduğu gibi olan modelleri tahmin edebilmesidir. Her iki durumda da, bu modeller sadece bir avuç çok güçlü tahminci olduğunda tahmin için etkili olabilir. Bir sonuç birçok zayıf yordayıcı tarafından daha iyi tahmin edilirse, sırt regresyonu veya torbalama / artırma hem ileri adım adım regresyondan hem de LASSO'dan uzun bir atışla daha iyi performans gösterecektir . LASSO, adım adım regresyondan daha hızlıdır.p ≫ n
Özellik seçimi ve tahmin arasında çok fazla örtüşme var, ancak size bir anahtarın çekiç olarak ne kadar iyi hizmet ettiğini asla söylemiyorum. Genel olarak, az sayıda model katsayısı ve tahmin için ileriye doğru kademeli model seçimine kıyasla LASSO'yu tercih ederim.p ≫ n