Sırt regresyonu neden LASSO'dan daha iyi yorumlanabilirlik sağlayamıyor?


13

Sırt regresyonu ve LASSO'nun artıları ve eksileri hakkında zaten bir fikrim var.

LASSO için, L1 ceza süresi, bir özellik seçim yöntemi olarak görülebilen seyrek bir katsayı vektörü verecektir. Bununla birlikte, LASSO için bazı sınırlamalar vardır. Özelliklerin yüksek korelasyonu varsa, LASSO bunlardan sadece birini seçecektir. Ek olarak, > n olan problemler için LASSO en fazla n parametre seçecektir ( n ve p sırasıyla gözlem ve parametre sayısıdır). Bunlar LASSO'yu sırt regresyonuna kıyasla öngörülebilirlik açısından ampirik olarak suboptimal bir yöntem haline getirmektedir.pnnnp

Sırt regresyonu için genel olarak daha iyi öngörülebilirlik sunar. Ancak, yorumlanabilirliği LASSO kadar hoş değildir.

Yukarıdaki açıklama genellikle makine öğrenimi / veri madenciliği ders kitaplarında bulunabilir. Ancak, hala iki şey hakkında kafam karıştı:

  1. Özellik aralığını (0 ile 1 arasında veya sıfır ortalama ve birim varyansı ile) normalleştirir ve sırt regresyonunu çalıştırırsak, katsayıların mutlak değerlerini sıralayarak özellik önemi konusunda bir fikrimiz olabilir (en önemli özellik, katsayıların en yüksek mutlak değeri). Özellikleri açıkça seçmememize rağmen, yorumlanabilirlik sırt regresyonu kullanılarak kaybolmaz. Aynı zamanda hala yüksek tahmin gücüne ulaşabiliriz. Öyleyse neden LASSO'ya ihtiyacımız var? Burada bir şey mi eksik?

  2. LASSO, özellik seçimi doğası nedeniyle tercih ediliyor mu? Anladığım kadarıyla, özellik seçimine ihtiyaç duymamızın nedenleri, genelleme ve hesaplama kolaylığıdır.

    Hesaplama kolaylığı için, bazı NLP görevleri gerçekleştiriyorsak, 1 milyon özelliğin tamamını modelimize beslemek istemiyoruz, bu nedenle hesaplama maliyetini azaltmak için öncelikle işe yaramayan bazı özellikleri düşürüyoruz. Bununla birlikte, LASSO için, özellik seçim sonucunu (seyrek vektör) tüm verileri modelimize besledikten sonra bilebiliriz, bu nedenle hesaplama maliyetini azaltmak açısından LASSO'dan faydalanmayız. Tahminleri sadece biraz daha hızlandırabiliriz, çünkü tahmin edilen sonuçlar üretmek için özelliklerin alt kümesini (1 milyondan 500'ü) sadece modelimize besliyoruz.

    LASSO genelleme yeteneği için tercih edilirse, aynı hedefi sırt regresyonunu (veya herhangi bir başka düzenlemeyi) kullanarak da başarabiliriz. Neden tekrar LASSO'ya (veya elastik ağlara) ihtiyacımız var? Neden sırt regresyonuna bağlı kalamıyoruz?

Birisi buna ışık tutabilir mi lütfen? Teşekkürler!


3
L1L2

3
Ayrıca hangi ders kitaplarının sırt regresyonu için genel olarak daha iyi öngörülebilirlik sunduğunu merak ediyorum (LASSO'nun aksine, anladım, sınırsız regresyonun aksine değil). Belki de genel kullanımlarında bu kadar genel değildir. Ayrıca, regülasyon yöntemlerinin ne kadar yorumlanabilirlik sağlaması beklenir? (Ayrıca, Shmueli "Açıklamak veya Tahmin Etmek" (2010) doğrudan ilgili olmasa bile güzel bir parça.)
Richard Hardy

1
@RichardHardy, haklısın. Şimdi ders kitabını daha dikkatli okudum ve " ne sırt regresyonunun ne de kementin evrensel olarak diğerine baskın çıkmayacağını " buldum , sayfa 223, R'deki Uygulamalarla İstatistiksel Öğrenmeye Giriş , Gareth James ve ark
Brad Li

@RichardHardy, başlangıçta LIBLINEAR SSS'de L1 normalleştirme için benzer argümanlar buldum: csie.ntu.edu.tw/~cjlin/liblinear/…
Brad Li

Sırtı ve Kement'i gerçek bir örnek ya da iki örnek üzerinde açıklar mıydı? (Ama karşılaştırmak kolay değil - arsa uyumu ile seyreklik?)
denis

Yanıtlar:


16
  1. 1 milyon sırt-daraltılmış, ölçekli, ancak sıfır olmayan özellikler sipariş ederseniz, bir tür karar vermeniz gerekecektir: n en iyi yordayıcılara bakacaksınız, ancak n nedir? LASSO, bu sorunu ilkeli, nesnel bir şekilde çözer, çünkü yoldaki her adım için (ve genellikle çapraz doğrulama yoluyla bir noktaya yerleşirsiniz), yalnızca sıfır olmayan m katsayıları vardır.

  2. Çok sık, modelleri bazı veriler üzerinde eğitecek ve daha sonra henüz toplanmamış bazı verilere uygulayacaksınız. Örneğin, modelinizi 50.000.000 e-postaya sığdırabilir ve ardından her yeni e-postada bu modeli kullanabilirsiniz. Doğru, ilk 50.000.000 posta için tam özellik setine sığacaksınız, ancak sonraki her e-posta için çok daha seyrek ve daha hızlı ve çok daha bellek verimli bir modelle ilgileneceksiniz. Ayrıca, bırakılan özellikler için bilgi toplamanız bile gerekmez, bu da örneğin genotipleme yoluyla özelliklerin çıkarılması pahalıysa çok yardımcı olabilir.

Andrew Gelman'ın maruz kaldığı L1 / L2 problemine bir başka bakış açısı, probleminizin nasıl olabileceği hakkında genellikle sezgileriniz olmasıdır. Bazı durumlarda, gerçekliğin gerçekten seyrek olması mümkündür. Belki milyonlarca gen ölçtünüz, ancak bunların sadece 30.000'inin aslında dopamin metabolizmasını belirlemesi mantıklıdır. Böyle bir durumda, L1 tartışmalı bir şekilde soruna daha iyi uymaktadır.
Diğer durumlarda, gerçeklik yoğun olabilir. Örneğin, psikolojide, "her şey (bir dereceye kadar) her şeyle ilişkilidir" (Paul Meehl). Portakal vs elma Tercihler muhtemelen yapar nasılsa siyasi eğilimlerinle bir bağıntısı - ve hatta IQ. Düzenleme burada hala mantıklı olabilir, ancak gerçek sıfır etkileri nadir olmalıdır, bu nedenle L2 daha uygun olabilir.


y=2x1+3x2x3
x2>x1>x3[0,1]
Brad Li

Elbette onları sıralayabilirsiniz, ancak hangi alt kümeye baktığınıza karar vermeniz gerekecektir.
jona

6
Bu olacağını ifade bir başka yolu: mahya olabilir yardımcı özelliği seçimle, LASSO yapar özellik seçimi.
jona

1
@Brad, jona'nın mükemmel yanıtına ek olarak (+1), özellik önemini standart regresyon katsayısı ile değerlendirmenin olası bir yaklaşım olduğunu, ancak tek yaklaşım olmadığını unutmayın; "özellik önemi" nin farklı ölçümleri vardır ve bunlar kolayca çelişkili sonuçlar verebilir. Uzun bir tartışma için bu konuya bakın: stats.stackexchange.com/questions/64010 .
amip

1

Hedef çok sayıda özelliğe bağlıysa yorumlanabilirlik azalır. Özelliklerin sayısını azaltabilir ve doğruluğu koruyabilirsek artar. Mahya düzeninin özellik sayısını azaltma özelliği yoktur. Ancak Kement'in yeteneği var. Bunun nasıl gerçekleştiği görsel olarak aşağıdaki bağlantıda açıklanmaktadır:

Veri Bilimine Yönelik Makale'yi tıklayın

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.