Sürekli bir sonuçla LASSO kullanan bazı aday öngörücülerde model seçimi yapmaya çalışıyorum. Amaç, LASSO'dan ayarlama parametrelerinin bir çözüm yolunu elde ettikten sonra genellikle K-kat çapraz doğrulaması ile yapılabilen en iyi tahmin performansına sahip optimal modeli seçmektir. Burada mesele, verilerin küme örneklemesi ve tabakalandırması ile karmaşık çok aşamalı bir anket tasarımından (NHANES) gelmesidir. Tahmin kısmı zor değildir, çünkü glmnet
R'de örnekleme ağırlıkları alabilir. Ancak, çapraz doğrulama kısmı benim için daha az açıktır, çünkü artık gözlemler artık geçerli değildir ve prosedür, sınırlı bir popülasyonu temsil eden örnekleme ağırlıklarını nasıl açıklayabilir?
Yani sorularım:
1) En uygun ayarlama parametresini seçmek için karmaşık anket verileriyle K-kat çapraz doğrulaması nasıl yapılır? Daha spesifik olarak, örnek verilerin eğitim ve doğrulama setlerine nasıl uygun şekilde bölüneceği? Tahmin hatası tahmini nasıl tanımlanır?
2) En uygun ayar parametresini seçmenin alternatif bir yolu var mı?