LASSO'yu yalnızca özellik seçimi için kullanma


10

Makine öğrenimi dersimde, LASSO regresyonunun özellik seçimini gerçekleştirmede ne kadar iyi olduğunu öğrendik, çünkü regülasyonunu kullanıyor .l1

Benim sorum: İnsanlar normalde LASSO modelini sadece özellik seçimi yapmak için mi kullanıyorlar (ve daha sonra bu özellikleri farklı bir makine öğrenme modeline dökmeye devam ediyorlar) mı yoksa tipik olarak hem özellik seçimini hem de gerçek regresyonu gerçekleştirmek için LASSO kullanıyorlar mı?

Örneğin, sırt gerilemesi yapmak istediğinizi varsayalım, ancak özelliklerinizin çoğunun çok iyi olmadığına inanıyorsunuz. LASSO'yu çalıştırmak, sadece algoritma tarafından sıfıra yakın olmayan özellikleri almak ve sadece verilerinizi bir sırt regresyon modeline dökmek için kullanmak akıllıca olur mu? Bu şekilde, özellik seçimini gerçekleştirmek için normalleştirmenin avantajını değil, aynı zamanda aşırı sığmayı azaltmak için l 2 normalleştirmenin avantajını elde edersiniz . (Ben bu temelde Elastik Net Regresyonla yaratmak anlamına geldiği biliyorum ama ikisini birden gerekmez gibi görünüyor l 1 ve l 2 nihai regresyon amaç fonksiyonunda terimleri.)l1l2l1l2

Regresyonun yanı sıra, sınıflandırma görevlerini gerçekleştirirken (SVM'leri, sinir ağlarını, rastgele ormanları vb. Kullanarak) akıllıca bir strateji midir?


1
Evet, diğer modeller için özellik seçimi için kement kullanmak iyi bir fikirdir. Alternatif olarak, ağaç bazlı özellik seçimi diğer modellere de beslenebilir
karthikbharadwaj

1
Kement, yalnızca doğrusal modellerde özellik seçimi gerçekleştirir - yordayıcılarda daha üst düzey etkileşimleri veya doğrusal olmama durumunu test etmez. Bunun nasıl önemli olabileceğine ilişkin bir örnek için: stats.stackexchange.com/questions/164048/… Kilometreniz değişebilir.
Sycorax, Reinstate Monica'nın

Yanıtlar:


12

Bir çeşit model seçimi yapan ve daha sonra, daha önce hiçbir model seçimi gerçekleşmemiş gibi başka analizler yapan hemen hemen her yaklaşım tipik olarak zayıf oranlara sahiptir. Bunun gerçekçi bir örneklem büyüklüğü ve özellik ile örnek büyüklüğü arasındaki kapsamlı simülasyon çalışmalarından elde edilen kanıtlarla desteklenen, bunun bir istisna olduğunu göstermek için zorlayıcı teorik argümanlar olmadığı sürece, bu tür bir yaklaşımın tatmin edici olmayan özelliklere sahip olması muhtemeldir. Bu yaklaşım için böyle olumlu bir kanıtın farkında değilim, ama belki de başka biri var. İstenen tüm hedeflere (örn. Elastik ağ) ulaşan makul alternatifler olduğu göz önüne alındığında, bu yaklaşımın böyle bir şüpheli ad-hoc yaklaşım kullanarak gerekçelendirilmesi zordur.


3
kabul edildi .... mesele her şeyin bir çapraz geçerlilik çerçevesi içine sığması gerektiğidir ... bu yüzden iki ayrı düzenlemeyi yapmak için iç içe çapraz doğrulama yapmalısınız (aksi takdirde sorunlarla karşılaşacaksınız) ve iç içe çapraz doğrulama için daha az veri kullanıyor her parça.
seanv507

1

Yukarıdaki tüm cevapların yanı sıra: 2x2 ve rxc tabloları için kesin bir chi2 permütasyon testi hesaplamak mümkündür. Ki-kare istatistiğinin gözlenen değerini asimptotik bir ki-kare dağılımıyla karşılaştırmak yerine, kesin permütasyon dağılımıyla karşılaştırmamız gerekir. Satır ve sütun kenar boşluklarını sabit tutarak verilerimize mümkün olan her şekilde izin vermeliyiz. Her izin verilen veri seti için chi2 istatistiklerini hesapladık. Daha sonra gözlemlenen chi2 ile (sıralanmış) chi2 istatistiklerini karşılaştırıyoruz Gerçek test istatistiğinin izin verilen chi2 test istatistikleri arasındaki sıralaması bir p değeri verir.


Cevabınıza ayrıntı ekleyebilir misiniz lütfen? Mevcut haliyle, kesin chi2 testini nasıl hesaplayacağı açık değildir.
Antoine Vernet
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.