Lasso için düz alt gradyan yöntemleri yerine neden proksimal gradyan inişi?

Lasso'yu vanilya alt gradyan yöntemleri ile çözmeyi düşünüyordum. Ama Proksimal degrade iniş kullanmayı öneren insanları okudum. Birisi neden Kement için vanilya alt gradyan yöntemleri yerine proksimal GD'nin kullanıldığını vurgulayabilir mi?

— CKM
kaynak

Kement için alt gradyan yöntemleri kullanılarak yaklaşık bir çözüm bulunabilir. Örneğin, aşağıdaki kayıp işlevini en aza indirmek istediğimizi düşünelim:

f (w; λ) = ‖ y - X w ‖_{2}^{2} + λ ‖ w ‖_{1}

$f(w; \lambda) = \| y - Xw \|_2^2 + \lambda \|w\|_1$

Ceza terimi gradyanına $-\lambda$ için $w_i < 0$ ve $\lambda$ için $w_i > 0$ , ancak ceza terimi en türevlenemeyen olan $0$ . Bunun yerine, aynı ancak için değerine sahip . $\lambda \text{sgn}(w)$ $0$ $w_i = 0$

Kayıp işlevi için karşılık gelen alt gradyan:

g (w; λ) = - 2 X^{T} (y - X w) + λ sgn (w)

$g(w; \lambda) = -2X^T (y - X w) + \lambda \text{sgn}(w)$

Degrade inişe benzer bir yaklaşım kullanarak , ancak degradenin tanımsız olduğu dışındaki her yerde degradeye eşit olan) kullanarak kayıp işlevini en aza indirebiliriz . Çözelti gerçek kement çözeltisine çok yakın olabilir, ancak tam sıfır içermeyebilir - ağırlıkların sıfır olması gerektiği yerde, bunun yerine çok küçük değerler alırlar. Bu gerçek azlık eksikliği, kement için alt gradyan yöntemlerini kullanmamak için bir nedendir. Özel çözücüler, hesaplamalı olarak verimli bir şekilde gerçekten seyrek çözümler üretmek için sorun yapısından yararlanır. Bu gönderi $0$ seyrek çözümler üretmenin yanı sıra, özel yöntemlerin (proksimal degrade yöntemleri dahil) alt gradyan yöntemlerinden daha hızlı yakınsama hızlarına sahip olduğunu söylüyor. Bazı referanslar veriyor.

— user20160
kaynak