Kement neden Değişken Seçim sağlıyor?


76

İstatistiksel Öğrenme Öğelerini okudum ve Lasso'nun neden değişken seçim sağladığını ve sırt regresyonunun neden olmadığını bilmek istiyorum.

Her iki yöntem de artık kareler toplamını en aza indirir ve parametrelerinin olası değerleri üzerinde bir kısıtlamaya sahiptir . Kement için sınırlama iken, sırt için bazı için .| | β | | 1t | | β | | 2t tβ||β||1t||β||2tt

Elips resmini elmas kitapta görmüştüm ve Lasso'nun sınırlandırılmış bölgenin köşelerine neden vuracağı konusunda bazı sezgilerim var, bu da katsayılardan birinin sıfıra ayarlandığı anlamına geliyor. Ancak, sezgilerim oldukça zayıf ve ikna olmadım. Görmesi kolay olmalı, ama bunun neden doğru olduğunu bilmiyorum.

Bu yüzden bir matematiksel gerekçelendirme veya kalan karelerin toplamı konturlarının neden kısıtlı bölgenin köşelerine çarpma ihtimalinin sezgisel bir açıklamasını aradığımı tahmin ediyorum (oysa bu mümkün değilse kısıtlama ).| | β | | 2||β||1||β||2


Aşağıdaki tüm cevaplar iyi açıklamalardır. Ancak görsel temsili bir yazı yazdım. Aşağıdaki link orta.com/@vamsi149/…
çözücü 4:

Yanıtlar:


70

En çok basit bir model düşünelim: y=βx+e , bir L1 cezası ile P ve en küçük karelere kayıp fonksiyonu e . Asgariye indirilecek ifadeyi genişletebiliriz:β^e^

minyTy2yTxβ^+β^xTxβ^+2λ|β^|

En küçük kareler çözümünün bazı olduğunu varsayalım , ki bu olduğu varsayımına eşdeğerdir ve L1 cezasını eklediğimizde ne olacağını görün. İle , , bu nedenle ceza süresi değerine eşittir . Wrt nesnel işlevinin türevi :β^>0yTx>0 β >0| p | = Β 2A,β ββ^>0|β^|=β^2λββ^

2yTx+2xTxβ^+2λ

ki bu açıkça bir çözüm . β^=(yTxλ)/(xTx)

Açıkçası artırarak ı sıfıra indirebiliriz (at ). Bununla birlikte, bir kez , artan bunu olumsuz etkilemeyecektir, çünkü, gevşek bir şekilde yazarken, negatif olur, amaç işlevinin türevi şu şekilde değişir:λβ A, = Y , T x β = 0 A, ββ^λ=yTxβ^=0λβ^

2yTx+2xTxβ^2λ

burada işaretindeki çevirme , ceza süresinin mutlak değer niteliğinden kaynaklandığı; zaman negatif olur, ceza terimi eşit olur ve türev wrt alma sonuçları . Bu çözelti neden ile açıkça tutarsız (verilen en küçük kareler çözelti , bu, ve anlamına gelir.λβ2λββ2λβ = ( y , T x + λ ) / ( X , T x ) β < 0 > 0 Y , T x > 0 λ > 0 β 0 < 0 β = 0β^=(yTx+λ)/(xTx)β^<0>0yTx>0λ>0). Orada taşırken (biz en küçük kareler çözeltiden uzak hareket gibidir) L1 cezası bir artış ve karesel hata terimi artıştır gelen ile , bu yüzden biz, sadece yapılacak yapıştırın .β^0<0β^=0

olan en küçük kareler çözümü için, uygun işaret değişiklikleriyle aynı mantığın geçerli olduğu sezgisel olarak anlaşılmalıdır . β^<0

En küçük kareler cezasıyla , ancak türev olur:λβ^2

2yTx+2xTxβ^+2λβ^

ki bunun açıkça bir çözümü var: . Tabii ki hiçbir artış bunu sıfıra indirmeyecek. Bu nedenle, L2 cezası, " küçükse parametre tahminini sıfıra eşit ayarlayın" gibi hafif bir sorun yaşamadan değişken bir seçim aracı olarak hareket edemez . β^=yTx/(xTx+λ)λϵ

Açıkçası, çok değişkenli modellere geçtiğinizde işler değişebilir, örneğin, bir parametre tahminini hareket ettirmek, diğerini işaret değiştirmeye zorlayabilir, ancak genel ilke aynıdır: L2 ceza fonksiyonu sizi sıfıra indiremez, çünkü, çok sezgisel olarak yazma işlemi, aslında, " ifadesinin" paydasına "eklenir , ancak L1 ceza işlevi," gerçekte "bölümüne ekler. β^


Lasso ayrıca doğrusal olmayan modellerde, örneğin NN'de özellik seçimi sağlıyor mu?
Ilya

Küçük bir takip sorusu: Eğer bir vektör ve uygun bulmak için değiştirebileceğimiz bir skalar ise nasıl olabilir ? Y , T x λλ=yTxyTxλ
Jekaterina Kokatjuhha

Tek değişkenli bir örnek kullanıyordum, bu yüzden bir skalerdir. Çok değişkenli bir sorunu , , hangi sorunun çözüleceğine bağlı olarak, uzunluk = büyüklüğü veya uygun büyüklükteki kimlik matrisinin bir vektörüyle çarpılır . Bunu, örneğin = L2 normuna dikkat ederek ve yukarıdaki formüllerde yer değiştirmeler yaparak çözebilirsiniz. λ β z z T I zyTxλβzzTIz
jbowman

Mantığın bu parçasını izleyemediğim için, lambda işaretinin, ceza fonksiyonunun mutlak doğası nedeniyle nasıl kaydığını göstermem mümkün mü (matematiksel olarak?).
user1420372

@ user1420372 - yapmış; ne düşündüğü söyle.
jbowman

9

Y = 1 ve x = [1/10 1/10] ile bir veri setimizin olduğunu varsayalım (bir veri noktası, iki özellik). Bir çözüm, özelliklerden birini seçmek, başka bir özellik de her iki özelliği de ağırlıklandırmaktır. Yani w = [5 5] veya w = [10 0] seçebiliriz.

L1 normunda her ikisinin de aynı cezaya sahip olduğunu, ancak daha fazla yayılan ağırlığın L2 normu için daha düşük bir ceza aldığını unutmayın.


8

Zaten mükemmel kuleler olduğunu düşünüyorum ama sadece geometrik yorumlarla ilgili bazı sezgiler eklemek için:

"Kement büzülmesini gerçekleştirir , böylece kısıtlamada, iki boyutta bir elmasa karşılık gelen" köşeler "olur. Kareler toplamı bu köşelerden birine çarptığında, eksene karşılık gelen katsayı küçülür. sıfıraL1

De arttıkça, çok boyutlu elmas köşeleri artan sayıda vardır ve nedenle bazı katsayıları sıfıra eşit olacağı son derece olasıdır. Bu nedenle, kement büzülme ve (etkin bir şekilde) alt küme seçimi gerçekleştirir.p

Alt küme seçiminin aksine, çıkıntı yumuşak bir eşikleme gerçekleştirir: yumuşatma parametresi değiştiği için, tahminlerin örnek yolu sürekli olarak sıfıra hareket eder. "

Kaynak: https://onlinecourses.science.psu.edu/stat857/book/export/html/137

Etki, renkli çizgilerin sıfıra doğru daralan regresyon katsayılarının yolları olduğu yerlerde güzel bir şekilde görselleştirilebilir.

görüntü tanımını buraya girin

"Ridge regression tüm regresyon katsayılarını sıfıra doğru küçültür; kement bir dizi sıfır regresyon katsayısı verme eğilimindedir ve seyrek bir çözüme yol açar."

görüntü tanımını buraya girin

Kaynak: https://onlinecourses.science.psu.edu/stat857/node/158

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.