LASSO'nun ileri seçim / geriye doğru eliminasyona göre modelin çapraz doğrulama tahmini hatası açısından üstünlüğü


10

Orijinal bir tam modelden üç azaltılmış model kullanarak

  • ileri seçim
  • geriye doğru eleme
  • L1 ceza tekniği (LASSO)

İleri seçim / geri eleme kullanılarak elde edilen modeller için, mevcut CVlmpakette DAAGkullanılan çapraz doğrulanmış tahmin hatası tahminini elde ettim R. LASSO ile seçilen model için kullandım cv.glm.

LASSO için tahmin hatası, diğerleri için elde edilenlerden daha azdı. Bu yüzden LASSO ile elde edilen model, tahmini kapasitesi ve değişkenliği açısından daha iyi görünüyor. Bu her zaman meydana gelen genel bir fenomen midir yoksa probleme özgü mü? Bu genel bir fenomen ise bunun teorik muhakemesi nedir?


3
Uygun olmayan tahmin / modelleri ödüllendirdiği için doğru sınıflandırılmış oran gibi uygunsuz bir doğruluk puanlama kuralı kullanmadığınızdan emin olun. Ve L2 normuyla karşılaştırın. Bahse girerim denediğiniz 3 yaklaşımdan daha iyi olur.
Frank Harrell

Yanıtlar:


16

LASSO ve ileri / geri model seçiminin hem güçlü hem de sınırlamaları vardır. Hiçbir kapsamlı öneri yapılamaz. Simülasyon her zaman bunu ele almak için araştırılabilir.

Her ikisi de boyutsallık anlamında anlaşılabilir: model parametrelerinin sayısına ve gözlem sayısına atıfta bulunur . Modelleri geriye doğru model seçimini kullanarak sığdırabilseydiniz , muhtemelen sahip değildiniz . Bu durumda, "en uygun" model tüm parametreleri kullanan modeldir ... dahili olarak doğrulandığında! Bu sadece aşırı uydurma meselesidir.pnpn

Aşırı takma, model değerlendirmesi için bölünmüş numune çapraz validasyonu (CV) kullanılarak giderilir. Bunu tarif etmediğin için, sanmıyorum. Kademeli model seçiminin aksine, LASSO modeldeki parametre sayısını cezalandırmak için bir ayar parametresi kullanır. Tuning parametresini düzeltebilir veya bu değeri seçmek için karmaşık bir yinelemeli işlem kullanabilirsiniz. Varsayılan olarak , LASSO ikincisini yapar. Bu, tahmin MSE'sini en aza indirgemek için CV ile yapılır. Bu tür sofistike teknikler kullanan aşamalı model seçiminin herhangi bir uygulamasının farkında değilim, bir kriter olarak BIC bile iç doğrulama önyargısından muzdarip olurdu. Benim hesabımla, bu, otomatik olarak "kutudan çıkmış" kademeli model seçimi üzerinde LASSO kaldıraç sağlar.

Son olarak, aşamalı model seçiminin farklı regresörleri dahil etmek / hariç tutmak için farklı kriterleri olabilir. Belirli model parametrelerinin Wald testi veya sonuçtaki R ^ 2 modeli için p-değerlerini kullanırsanız, çoğunlukla dahili doğrulama önyargısı nedeniyle (yine CV ile düzeltilebilir) iyi sonuç vermezsiniz. Bu tür modellerin hala uygulanma eğiliminin şaşırtıcı olduğunu düşünüyorum. AIC veya BIC, model seçimi için çok daha iyi kriterlerdir.

Her yöntemle ilgili bir takım sorunlar vardır. Adım adım model seçiminin sorunları LASSO'dan çok daha iyi anlaşılır ve çok daha kötüdür. Sorunuzla ilgili gördüğüm temel sorun, tahmini değerlendirmek için özellik seçme araçlarını kullanmanızdır . Bunlar farklı görevlerdir. LASSO, özellik seçimi veya seyrek model seçimi için daha iyidir. Ridge regresyonu tüm değişkenleri kullandığı için daha iyi tahmin verebilir.

LASSO'nun en büyük gücü, adım adım regresyonda olduğu gibi olan modelleri tahmin edebilmesidir. Her iki durumda da, bu modeller sadece bir avuç çok güçlü tahminci olduğunda tahmin için etkili olabilir. Bir sonuç birçok zayıf yordayıcı tarafından daha iyi tahmin edilirse, sırt regresyonu veya torbalama / artırma hem ileri adım adım regresyondan hem de LASSO'dan uzun bir atışla daha iyi performans gösterecektir . LASSO, adım adım regresyondan daha hızlıdır.pn

Özellik seçimi ve tahmin arasında çok fazla örtüşme var, ancak size bir anahtarın çekiç olarak ne kadar iyi hizmet ettiğini asla söylemiyorum. Genel olarak, az sayıda model katsayısı ve tahmin için ileriye doğru kademeli model seçimine kıyasla LASSO'yu tercih ederim.pn


4

Bazı kriterlere göre bir belirteçler alt kümesi seçmek istiyorsunuz. Örnek içi AIC olabilir veya R ^ 2 ayarlı olabilir veya çapraz doğrulama önemli değildir.

Her bir öngörücü altkümesi kombinasyonunu test edebilir ve en iyi altkümeyi seçebilirsiniz. ancak

  • Parametrelerin kombinasyonel patlaması nedeniyle çok zaman alıcıdır.
  • Çözüm veren tüm tahmin kombinasyonlarını test ettiğiniz anlamında gözlemlerden daha fazla parametreniz varsa çalışır

İleriye doğru kademeli seçimi kullanabilirsiniz

  • Daha az zaman alan, ancak mutlak en iyi kombinasyonu elde edemeyebilir, esp. öngörücüler ilişkilendirildiğinde (bir öngörücü seçebilir ve diğer 2 öngörücüyü eklerken daha fazla iyileşme elde edemeyebilir)
  • Gözlemlerden daha fazla parametreniz olsa bile çalışır

Geri elemeyi kullanabilirsiniz

  • Gözlemlerden daha fazla parametreniz varsa işe yaramaz, tek bir iyi başlangıç ​​noktası yoktur (teoride tüm geçerli başlangıç ​​noktalarından başlayabilir, geriye doğru çalışabilir, en iyisini seçebilirsiniz, ancak normalde geriye doğru eleme ile kastedilen bu değildir).
  • Adım adım ilerlemek gibi, tüm alt kümelerden daha az zaman alıcıdır, ancak mutlak en iyi kombinasyonu elde edemeyebilir, esp. öngörücüler ilişkili olduğunda

LASSO kullanabilirsiniz

  • Gözlemlerden daha fazla parametreniz olsa bile çalışır
  • Birçok parametreniz ve alt kümelerin kombinasyonel patlaması olduğunda CPU verimli
  • Düzenleme ekler

LASSO'nun CV'deki verilerinizde neden daha iyi performans gösterdiğine dair sorunuza gelince

  • Bir olasılık yukarıda açıklanan yola bağımlılıktır - LASSO daha iyi bir alt küme bulabilir. Belki şanslı, belki LASSO genellikle / bazen daha iyi altkümeler alır, emin değilim. Belki de konuyla ilgili literatür vardır.
  • Başka bir (daha olası) olasılık, LASSO düzenlemesinin aşırı sığmayı önlemesi, bu nedenle LASSO, CV / numuneden daha iyi performans gösterir.

Sonuç olarak, LASSO, özellikle çok sayıda öngörücünüz olduğunda, düzenlileştirme ve etkili alt küme seçimi sunar.

BTW, LASSO yapabilir ve CV (en yaygın) kullanarak modelinizi seçebilir, aynı zamanda AIC veya başka bir kriter kullanarak da seçebilirsiniz. Modelinizi L1 düzenlenmesi ve herhangi bir kısıtlama olmadan çalıştırın, ardından AIC minimum veya CV hatasına veya seçtiğiniz kritere ulaşıncaya kadar kısıtlamayı yavaş yavaş sıkın. Bkz. Http://scikit-learn.org/stable/auto_examples/linear_model/plot_lasso_model_selection.html

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.