Karmaşık anket verilerinde LASSO'dan sonra çapraz doğrulama


11

Sürekli bir sonuçla LASSO kullanan bazı aday öngörücülerde model seçimi yapmaya çalışıyorum. Amaç, LASSO'dan ayarlama parametrelerinin bir çözüm yolunu elde ettikten sonra genellikle K-kat çapraz doğrulaması ile yapılabilen en iyi tahmin performansına sahip optimal modeli seçmektir. Burada mesele, verilerin küme örneklemesi ve tabakalandırması ile karmaşık çok aşamalı bir anket tasarımından (NHANES) gelmesidir. Tahmin kısmı zor değildir, çünkü glmnetR'de örnekleme ağırlıkları alabilir. Ancak, çapraz doğrulama kısmı benim için daha az açıktır, çünkü artık gözlemler artık geçerli değildir ve prosedür, sınırlı bir popülasyonu temsil eden örnekleme ağırlıklarını nasıl açıklayabilir?

Yani sorularım:

1) En uygun ayarlama parametresini seçmek için karmaşık anket verileriyle K-kat çapraz doğrulaması nasıl yapılır? Daha spesifik olarak, örnek verilerin eğitim ve doğrulama setlerine nasıl uygun şekilde bölüneceği? Tahmin hatası tahmini nasıl tanımlanır?

2) En uygun ayar parametresini seçmenin alternatif bir yolu var mı?


Belki yeniden örnekleme (örn. Bootstrap) k fold cv yerine daha uygun bir prosedür olabilir?
g3o2

Lumley , "Bootstrap teorisi sadece her bir tabaka içinde eşit olasılıklı örnekleme durumu için geliştirildi, ancak keyfi olasılıklarla ne kadar iyi çalışacağı açık değildir." (28) NHANES verilerinin tabakalar içinde eşit olasılıklı örnekleme olduğu görülmemektedir.
Dan Hicks

OP'nin bu küçük detayını bilmek ilginç olurdu. Çok aşamalı küme ve tabakalı örnekleme hakkında neyin karmaşık olacağını görmüyorum ...
g3o2

@Dan Hicks: Bunun gerçekten önemli olduğunu düşünmüyorum, yeniden örnekleme yaparken aynı örnek planın birden fazla örneğini çoğaltıyorsunuz.
g3o2

Burada açıklanan yöntemler gibi bir şey mi kullanıyorsunuz? amstat.tandfonline.com/doi/pdf/10.1080/01621459.1988.10478591 (Ya da daha yeni bir şey mi?) Bu fikri bir cevap olarak biraz daha ayrıntılı olarak yazmak istiyorsanız, size ödül vereceğim.
Dan Hicks

Yanıtlar:


2

Ayrıntılı bir cevabım yok, sadece çalışmak için bazı işaretçiler okumak zorunda kaldım:

LASSO kullanımının verileriniz için uygun olduğundan emin olmak için karmaşık anket LASSO'sunda McConville'e (2011) göz atabilirsiniz . Ancak, LASSO'yu yalnızca değişken seçim için yapıyor ve daha sonra kalan değişkenlere başka bir şey uyduruyorsanız, belki de önemli değildir.

Karmaşık anket verileriyle çapraz doğrulama için (LASSO olmasa da) McConville, Opsomer & Miller (2005) ve You (2009) 'dan da bahseder . Ancak yöntemleri K-katını değil, bir kereye mahsus CV'yi kullanıyor gibi görünüyor.

Bir defaya mahsus olmak karmaşık anketlerle uygulanması daha kolay olmalıdır - verilerin uygun şekilde nasıl bölümleneceği konusunda daha az endişe vardır. (Öte yandan, K-katından daha uzun sürebilir. Ve hedefiniz model seçimi ise, büyük numuneler için bir kerelik bırakmanın K katından daha kötü olabileceği bilinmektedir.)


0

OP ile DÜZENLEME: Karmaşık anket verileri için geçerli değildir.

Cv.glmet işlevi, gerekli çapraz doğrulamayı gerçekleştirmenize yardımcı olabilir. Lambda.min değeri, CV hatasının minimum olduğu λ değeridir. Lambda.1se, aramadaki en iyi modelden (lambda.min) daha basit olan, ancak en iyi modelin 1 standart hatası içinde hataya sahip olan λ değerini temsil eder.

  1. Alfa ve lambda için seçebileceğiniz bir değerler ızgarası seçin

grid <- expand.grid (.alfa = (1:10) * 0.1, .lambda = (1:10) * 0.1)

  1. Modelinizin kontrol parametrelerini ayarlayın. Aşağıdaki tren kontrolü 10 tekrarlama için tekrarlanır. Mevcut yöntemleri gözden geçirin ve mevcut senaryonuza uygun olanı seçin.

.birlphbir,> =T,lbirmbdbir=grbend

Lambda.min değerine aşağıda gösterildiği gibi modelin kendisinden erişilebilir.

cv.glmmod $ lambda.min


1
Ben glmnet kullanarak iid verileri için çapraz doğrulama nasıl yapacağımı biliyorum. İlişkili karmaşık anket verilerini soruyordum.
aenima
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.