Seyrek modeller için neden L1 normu


97

Doğrusal regresyonla ilgili kitapları okuyorum. L1 ve L2 normuyla ilgili bazı cümleler var. Onları tanıyorum, sadece neden L1 normunun seyrek modeller için olduğunu anlamıyorum. Birisi kullanmak basit bir açıklama verebilir mi?


4
Temel olarak, seyreklik, bir izos yüzeyinin ekseninde yatan keskin kenarlardan kaynaklanır. Şu ana kadar bulduğum en iyi grafik açıklama bu videoda: youtube.com/watch?v=sO4ZirJh9ds
felipeduque


Aşağıdaki Orta yazıyı kontrol edin. Orta.com/@vamsi149/…
çözücüsü 149

Yanıtlar:


111

Göz önünde vektörü burada ε > 0 küçüktür. L 1 ve L 2 normları x sırasıyla tarafından verilmektedirx=(1,ε)R2ε>0l1l2x

||x||1=1+ε,  ||x||22=1+ε2

Şimdi, bazı düzenlilestirme prosedürün bir parçası olarak, biz unsurlarının birinin büyüklüğünü azaltmak için gidiyoruz demek tarafından ö £ değerinin . Eğer x 1 - 1 - δ değiştirirsek , sonuçta ortaya çıkan normlarxδεx11δ

||x(δ,0)||1=1δ+ε,  ||x(δ,0)||22=12δ+δ2+ε2

Öte yandan, azaltarak ile ö normlarını verirx2δ

||x(0,δ)||1=1δ+ε,  ||x(0,δ)||22=12εδ+δ2+ε2

l2x1x20l1l2l2ε0εl1δ

l1l2


3
Cevabınız için teşekkürler! Yine de son noktaya ikna olmadım. Eğer cezalandırılmamış lineer regresyon uygularsanız, nadiren seyrek bir çözüm elde edemezsiniz (oysa bir L1 cezası eklemek genellikle size azlık verir). Dolayısıyla, L1 cezaları aslında sıfıra tam olarak sıfıra yaklaşan katsayılar göndererek seyrekliği teşvik eder.
Stefan Wager

2
l1lαα1l0

1
Evet doğru. Seyrekliğe yol açan birçok norm vardır (örneğin, bahsettiğiniz gibi, p <= 1 olan herhangi bir Lp normu). Genel olarak, sıfırda keskin bir köşesi olan herhangi bir norm, sparititeye neden olur. Bu yüzden, asıl soruya geri dönersek - L1 normu sıfırda süreksiz bir gradyana sahip olarak seyrekleşmeye neden olur (ve bu özelliğe sahip diğer herhangi bir ceza da bunu yapar).
Stefan Wager

3
Herhangi birinin daha fazla okumak istemesi durumunda, L1 normuna alternatif olan dışbükey olmayan ceza fonksiyonlarıyla ilgili aktif bir literatür vardır (örneğin, yakın zamanda, papers.nips.cc/paper/… ).
Stefan Wager

1
Harika cevap Ben bulana kadar bir süredir merak ediyorum.
Hady Elsahar

72

Seyrek bir modelde, ağırlıkların çoğunun 0 olduğu bir model düşünüyoruz. Bu nedenle L1-normalizasyonunun 0-ağırlık yaratma olasılığının daha fazla olduğunu düşünelim.

(w1,w2,,wm)

L1(w)Σi|wi|

L2-normalizasyonda, modeli değerinde bir kayıp fonksiyonuyla cezalandırırsınız.L2(w)12Σiwi2

η

dL1(w)dw=sign(w)sign(w)=(w1|w1|,w2|w2|,,wm|wm|)

dL2(w)dw=w

Kayıp işlevini çizersek ve sadece tek bir parametreden oluşan bir model için türev yaparsak, L1 için şöyle görünür:

görüntü tanımını buraya girin

Ve L2 için böyle:

görüntü tanımını buraya girin

L1w1=0L2

bir modelle başladığınızı hayal edin.w1=5η=12w1:=w1ηdL1(w)dw=w1121w1=0

görüntü tanımını buraya girin

η=12w1w1:=w1ηdL2(w)dw=w112w1

görüntü tanımını buraya girin

η


3
η=0.5
wfirst step=0.10.5(+1)=>w=0.4
wsecondstep=0.40.5(1)=0.1.

5
@AlexYashin doğru - eğer sadece L1 düzenlileştirmeye dayalı ağırlıkları güncellersek, 0'a yakın salınan ağırlıkları kaldırabiliriz. Düzenlemeyi, kayıp fonksiyonunu optimize etmekle birlikte kullanıyoruz. Bu şekilde düzenlileştirme ağırlıkları sıfıra doğru iterken aynı zamanda ağırlıkları tahminleri optimize eden bir değere de zorlamaya çalışıyoruz. İkinci bir özellik, öğrenme oranıdır. Daha küçük bir öğrenme oranıyla, düzenlileşmenin etrafında salınabileceği değere o kadar yaklaşabiliriz ki, bunu ihmal edebiliriz
Kent Munthe Caspersen

1
Neden dL2(w)/dw'modül' sadece doğrusal değil?
mrgloom

1
@mrgloom ağırlıktaki değişim başına değişim dL2(w)/dwolarak okunabilir L2(w). L2-normalizasyon ağırlıkları karelediğinden, L2(w)daha yüksek ağırlıklara sahip olduğumuzda aynı ağırlık değişikliği için çok daha fazla değişiklik olacaktır. Bu yüzden, onu çizdiğinizde fonksiyon dışbükeydir. Bununla birlikte, L1 için L1(w)ağırlık değişimine göre değişim, ağırlıklarınızın ne olduğuna bakılmaksızın aynıdır - bu, doğrusal bir işleve yol açar.
Kent Munthe Caspersen

1
@KentMuntheCaspersen Şaşırtıcı açıklama! Grafikler ve bu sezgisel hale getirmek için harcadığınız çaba için teşekkür ederiz!
layser

15

Hastie, Tibshirani ve Friedman'ın İstatistiksel Öğrenme Öğelerinden Şekil 3.11 çok açıklayıcıdır:görüntü tanımını buraya girin

β^β1β2β^L1L2) sırasıyla regresyon. Sezgisel olarak, her bir yöntem için, kırmızı elipslerin ve mavi bölgenin kesişimini, amaç fizibilitesini korurken hata fonksiyonunu en aza indirgemek için arıyoruz.

L1


16
Resimde ek bilgi olmadan çok inandırıcı değil. Öyleyse neden hatanın kontürleri şekilde oldukları yerde bulunmalıdır?
wabbit

@HrishikeshGanu Sonunda yayını düzenlemek için biraz zaman aldı.
Zhanxiong

Tüm kontürler aynı formda olacak ...
kjetil b halvorsen

1
β^β1β2β1=β2

13

β^β^1(β^)<t2(β^)<t

11{x:1(x)1}

Daha genel olarak, bu kitap bu konu hakkında iyi bir referans: hem sağlam hem de iyi anlatılmış, harika açıklamalar.


3
İkinci paragrafınızın bir anahtar olduğunu düşünüyorum ... en azından benim sezgim için: bir "top" daha çok eksenler boyunca sivri bir elmas gibidir, yani çarpması zorlanan bir hiper uçağın sıfır olması daha olasıdır. Eksenler
Wayne,

2
β^1212β^

3
Kitap iyi, ama nereden geldiğini ve arkasındaki matematiği asla açıklamıyor.
user13985,

2

Basit bir matematiksel olmayan cevap olacaktır:

L2 için: Ceza terimi karedir , bu nedenle küçük bir değerin karesi daha küçük olacaktır. Asgari kare hatası alma hedefimize ulaşmak için sıfır yapmak zorunda değiliz, bundan önce alacağız.

L1 için: Penaltı terim mutlaktır , biz olabilir gerek sıfıra gitmek olduğu gibi küçük küçültmek için hiçbir katalizör .

Bu benim bakış açım.


Beni çok ikna edici değil.
Tyler,

2

L1 Norm vs L2 Norm

Resimde L1 ve L2 Normları tarafından kaplanan alanın şekilleri gösterilmektedir. İkinci resim, çeşitli regresyon problemleri için çeşitli Gradyan İniş hatlarını içerir. Tüm kontur parsellerinde, Ridge veya L2 Normu ile kesişen kırmızı daireyi gözlemleyin. kesişme ekseni üzerinde değil. Tüm dış hatlardaki siyah daire, L1 Normu veya Lasso'ya müdahale eden olanı temsil eder. Eksenlere nispeten yakın bir şekilde kesişir. Bu, katsayıları 0'a getirme ve dolayısıyla özellik seçimi ile sonuçlanır. Dolayısıyla L1 normu, modeli seyrekleştirir.

Aşağıdaki linkte daha ayrıntılı bir açıklama: Veri Bilimine Doğru Gönder'i tıklayın.


2β1=1β1=0L1
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.