Kapalı formdaki kement çözeltisinin türetilmesi


52

Kement sorunu için öyle \ | \ beta \ | _1 \ leq t . Yumuşak eşikleme sonucunu sık sık görüyorum \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS}} | - \ gamma) ^ + ortonormal X durumu için. Çözümün bu şekilde "kolayca gösterilebileceği" iddia ediliyor, ancak daha önce hiç çalışılmış bir çözüm görmedim. Biri gördü mü ya da belki türev yaptı mı?minβ(YXβ)T(YXβ)β1t

βjlasso=sgn(βjLS)(|βjLS|γ)+
X

Bu biraz karışık görünüyor. Başlangıçta bir kısıt farz t ve çözeltide bir parametre tanıtmak γ . Sanırım bu ikisinin ikili problemle ilişki kurmaya niyetli olduğunu düşünüyorsun, ama belki de aradığınızı netleştirebilirsiniz.
kardinal

2
Kısmen bulma @cardinal yanıt β en aza indirir (YXβ)(YXβ) tabi β1t bulmak eşdeğerdir β bu en aza indirir (YXβ)(YXβ)+γj|βj|. t ve \ gamma arasında 1-1 bir ilişki vardır γ. Yumuşak eşikleme sonucunun neden böyle olduğunu 'kolayca' görmek için ikinci ifadeyi çözmenizi tavsiye ederim (yorumuma göre).

2
Başka bir not, bulma β minimize (YXβ)(YXβ)+γj|βj|, sorunu βj>0 , βj<0 ve \ beta = 0 durumlarına ayırınβ=0 .

2
@ cardinal Ah evet, 1-1 yanlış. Düzeltme: Her t0 için bir γ0 .

3
Harika bir tartışma için teşekkürler! Bu videoya kursta rastladım - Kement koordinatının iniş güncellemesini türetmek, bu tartışma için çok uygun ve çözümün içinde çok zarif bir şekilde yürüyor. Gelecekteki ziyaretçiler için faydalı olabilir :-)
zorbar

Yanıtlar:


63

Bu, Karush-Kuhn-Tucker koşulları yoluyla oldukça ekonomik yaklaşımlar dahil olmak üzere çeşitli şekillerde saldırıya uğrayabilir .

Aşağıda oldukça basit bir alternatif argüman var.

Ortogonal tasarım için en küçük kareler çözümü

dikey sütunlardan oluştuğunu varsayalım . Ardından en küçük kareler çözümü X

β^LS=(XTX)1XTy=XTy.

Bazı eşdeğer problemler

Lagrangian formu aracılığıyla, soruda göz önünde bulundurulan eşdeğer bir sorunun olduğunu görmek kolaydır.

minβ12yXβ22+γβ1.

İlk terimi genişleterek ve içermediğinden ilgilenilen değişkenlerden, bunu ve başka bir eşdeğer problemi düşünebiliriz, 12yTyyTXβ+12βTβyTy

minβ(yTXβ+12β2)+γβ1.

olduğuna göre , önceki sorun β^LS=XTy

minβi=1pβ^iLSβi+12βi2+γ|βi|.

Amaç işlevimiz şimdi her biri ayrı bir değişkenine karşılık gelen bir hedefler toplamıdır , bu nedenle her biri ayrı ayrı çözülebilir.βi

Bütün, parçalarının toplamına eşittir.

Belirli bir düzeltmek . Sonra i

Li=β^iLSβi+12βi2+γ|βi|.

Eğer , o zaman olmalıdır aksi beri biz onun işaretini çevirmek ve amaç fonksiyonu için daha düşük bir değer elde edebilirsiniz. Aynı şekilde , .β^iLS>0βi0β^iLS<0βi0

Durum 1 : . Yana , ve ilgili olarak bu farklılaşan ve sıfıra eşit ayarlama , elde ve bu yalnızca sağ taraf değilse, bu durumda gerçek çözüm mümkündür; bu durumda asıl çözüm β^iLS>0βi0

Li=β^iLSβi+12βi2+γβi,
βiβi=β^iLSγ
β^ilasso=(β^iLSγ)+=sgn(β^iLS)(|β^iLS|γ)+.

Durum 2 : . Bu, olmalı ve böylece göre ve sıfıra eşit ayar yaparak, . Fakat yine de, bunun mümkün olmasını sağlamak için, alarak elde edilen ihtiyacımız varβ^iLS0βi0

Li=β^iLSβi+12βi2γβi.
βiβi=β^iLS+γ=sgn(β^iLS)(|β^iLS|γ)βi0
β^ilasso=sgn(β^iLS)(|β^iLS|γ)+.

Her iki durumda da istenen formu alıyoruz ve bu yüzden bitti.

Son sözler

Olarak unutmayın sonra her artar,mutlaka azalır, bu nedenle . Ne zaman , biz, EKK çözümleri kurtarmak ve, tüm için elde .γ|β^ilasso|β^lasso1γ=0γ>maxi|β^iLS|β^ilasso=0i


2
Harika yazma @ cardinal!
Gary

9
+ 1 iki yarım amaç fonksiyonu basit gözlemi ile ikame edilmiş olabilir olan İki dışbükey parabolün parçalarının köşelerinde birliği , burada negatif işaret ve pozitif işareti . Formül, alt köşeyi seçmenin sadece süslü bir yoludur. β12β2+(±γβ^)β±γβ^β<0
whuber

Mümkünse, KKT-optimallik koşullarını kullanarak türevleri görmek istiyorum. Bu sonucu elde etmenin başka yolları nelerdir?
user1137731 10:12

5
@Cardinal: Güzel bir türev için teşekkürler. Bir gözlem. Hatırlarsam, ortogonal sütunlara sahip matris ortogonal (aka ortonormal) bir matrisle aynı değildir. O zaman bazı çapraz matris (zorunlu olarak kimlik matrisi değil). Ortogonal matris varsayımıyla (orijinal sorudaki gibi), ve hepsi harika görünüyor :)XX=DDXX=I
Oleg Melnikov

@cardinal "Neden aksi takdirde işaretini çevirip objektif işlev için daha düşük bir değer elde edebiliriz" dediğini anlamıyorum. Amaç fonksiyonunun türevini alıyoruz. Öyleyse, nesnel işlev daha yüksek veya düşükse, kimin umrunda. Tek umursadığımız türev sıfıra ayarlanmış, ekstremaya önem veriyoruz. Bir sabit tarafından daha yüksek veya daha düşük olması argmin'i etkilemez.
user13985,

7

Varsayalım ki, değişkenleri , nin sütunları da, şekilde standartlaştırılmıştır . Bu sadece daha sonra kolaylık sağlamak içindir: onsuz, sadece çapraz olduğundan gösterim artık daha ağırlaşıyor . Ayrıca olduğunu varsayalım . Bu, sonucun tutulması için gerekli bir varsayımdır. En küçük kareler tahmincisini tanımlayın . Sonra, (Lagrangian formunda) kement tahmincisi xjXRn×pXTX=IXTXnpβ^OLS=argminβyXβ22

(defn.)β^λ=argminβ12nyXβ22+λβ1(OLS is projection)=argminβ12nXβ^OLSXβ22+λβ1(XTX=I)=argminβ12nβ^OLSβ22+λβ1(algebra)=argminβ12β^OLSβ22+nλβ1(defn.)=proxnλ1(β^OLS)(takes some work)=Snλ(β^OLS),
\ ucu {align *} burada fonksiyonu yakın operatörü ve miktarı yumuşak eşikproxffSαα.

Bu, Cardinal'in çalıştığı proksimal operatörün ayrıntılı türevini atlayan bir türetmedir, ancak umarım, kapalı bir formu mümkün kılan ana adımları açıklığa kavuşturur.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.