Uzayda keyfi bir noktaya L2 düzenlenmesi nasıl uygulanır?

11

İşte Ian Goodfellow'un Deep Learning kitabında okuduğum bir şey .

Sinir ağları bağlamında, "L2 parametre normu cezası genellikle ağırlık azalması olarak bilinir. Bu düzenleme stratejisi ağırlıkları başlangıç noktasına yakınlaştırır [...]. Daha genel olarak, parametreleri herhangi bir noktaya yakın olacak şekilde düzenleyebiliriz ancak model parametrelerini sıfıra doğru düzenlemek çok daha yaygındır. (Deep Learning, Goodfellow ve ark.)

Ben sadece merak ediyorum. Maliyet fonksiyonumuza sadece düzenleyici bir terim ekleyerek ve bu toplam maliyet en aza indirerek , modelin parametrelerini küçük kalmasını etkileyebileceğimizi anlıyorum: $J$

J (Θ, X, y) = L (Θ, X, y) + λ | | w | |_{2}^{2}

$J(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) = L(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) + \lambda||\boldsymbol{w}||_{2}^{2}$

Peki, bu düzenleme stratejisinin parametreleri herhangi bir keyfi noktaya yönlendirecek bir versiyonu nasıl uygulanır? (normun 5'e doğru olmasını istiyoruz)

— şurup
kaynak

14

Aslında iki farklı soru soruyorsunuz.

Normun 5 olması, ağırlıkların yarıçap 5 ile merkezlenmiş bir hiper kürenin yüzeyine yakın olmasını istediğiniz anlamına gelir.

J (Θ, X, y) = L (Θ, X, y) + λ (| | w | |_{2}^{2} - 5)^{2}

$J(\Theta, X, y) = L(\Theta, X, y) + \lambda (||w||_2^2-5)^2$

Ama bunun yerine $\lambda \cdot\text{abs}(||w||_2^2-5)$ gibi bir şey kullanabilirsiniz.

Öte yandan, keyfi bir noktaya yönelmek istiyorsanız, o noktayı merkez olarak kullanmanız yeterlidir $c$ .

J (Θ, X, y) = L (Θ, X, y) + λ | | w - c | |_{2}^{2}

$J(\Theta, X, y) = L(\Theta, X, y) + \lambda ||w-c||_2^2$

— Sycorax: Monica'yı eski durumuna getirdi
kaynak

(+1) "Beşe eğilimli norm" hakkında düşünmenin verimli bir yolu, OP tarafından verilen sürümündeki ayarlama parametresi seçimi yoluyla olabilir (işlevi değiştirmek yerine)

J

$J$

— user795305

(Yukarıda ne demek istediğimi açıklığa kavuşturmak için kısa bir cevap yazdım. Bu arada, sorulan iki sorunun ayrımını açıkladığınız için teşekkür ederim!)

— user795305

Bunu yaparken sık karşılaşılan (pratik) bir hedef, bilinen bir çalışma noktasına doğru, örneğin değiştirmek istediğiniz ancak bunun için "yumuşak" bir geçiş yapmak istediğiniz önceki modeli düzenli hale getirmektir

— oDDsKooL

6

tanımlayınOlduğunu biliyoruz , bağlı cezası da asgarileştirir olarak orijini olan.

{\hat{w}}_{λ} = \arg min_{w} L (Θ, X, y) + λ ‖ w ‖_{2}^{2} .

$\hat w_\lambda = \arg\min_w L(\Theta, X, y) + \lambda \|w\|_2^2.$

lim_{λ \to \infty} {\hat{w}}_{λ} = 0

$\lim_{\lambda \to \infty} \hat w_\lambda = 0$

w \mapsto ‖ w ‖_{2}^{2}

$w \mapsto \|w\|_2^2$

Sycorax, benzer şekildeBu başarılı genelleme bizi önermemize yol açabilir burada bir işlevdir Küçültücü aradığımız bazı malları tatmin ediyor. Gerçekten de, Sycorax , burada başlangıç noktasında (benzersiz olarak) en aza indirilir ve özellikle . Bu nedenle , istendiği gibi. Ne yazık ki, yine de, her iki $\lim_{\lambda \to \infty} \left\{ \arg\min_w L(\Theta, X, y) + \lambda \|w-c\|_2^2 \right\} = c.$

{\tilde{w}}_{λ} = \arg min_{w} L (Θ, X, y) + λ p e n (w),

$\tilde w_\lambda = \arg\min_w L(\Theta, X, y) + \lambda \mathrm{pen}(w),$

p e n

$\mathrm{pen}$

p e n (w) = g (‖ w ‖_{2}^{2} - 5)

$\mathrm{pen}(w) = g(\|w\|_2^2 - 5)$

g

$g$

g \in {| \cdot |, (\cdot)^{2}}

$g \in \{|\cdot|, \, (\cdot)^2\}$

lim_{λ \to \infty} ‖ {\tilde{w}}_{λ} ‖_{2}^{2} = 5

$\lim_{\lambda \to \infty} \|\tilde w_\lambda \|_2^2 = 5$

g

$g$ dışbükey cezalara yol açarak tahmin edicinin hesaplanmasını zorlaştırır.

Yukarıdaki analiz en iyi çözüm gibi görünüyor (belki de seçimine, daha fazla önereceğim daha iyi bir şeyim yok) tarif edilen "eğilim" in benzersiz yorumu olarak ısrar edersek soru. Ancak, , bazı var, böylece OP sorununun minimizer Lambda'sı satsifes . Bu nedenle nesnel işlevi değiştirmeye gerek kalmadan. Böyle bir yoksa, bilgi işlem sorunu $g$ $\lambda \to \infty$ $\|\arg\min_w L(\Theta, X, y) \|_2^2 \geq 5$ $\Lambda$ $\hat w_\Lambda$ $\|\hat w_\Lambda\|_2^2 = 5$

lim_{λ \to Λ} {‖ {\hat{w}}_{λ} ‖}_{2}^{2} = 5,

$\lim_{\lambda \to \Lambda} \left\| \hat w_\lambda \right\|_2^2 = 5,$

Λ

$\Lambda$

\arg min_{w : ‖ w ‖_{2}^{2} = 5} L (Θ, X, y)

$\arg\min_{w : \|w\|_2^2 = 5} L(\Theta, X, y)$ esasen zordur. Gerçekten de, doğal özelliklerini teşvik etmeye çalışırken dışında herhangi bir tahminci düşünmeye gerek yoktur .

{\hat{w}}_{λ}

$\hat w_\lambda$

‖ {\hat{w}}_{λ} ‖_{2}^{2}

$\|\hat w_\lambda\|_2^2$

(Cezalandırılmış bir tahmincinin, deneyimsiz tahminci tarafından elde edilemeyen bir ceza değerine ulaşmasını sağlamak benim için son derece doğal görünmüyor. Aslında bunun istendiği herhangi bir yerden haberdar olan varsa, lütfen yorum yapın!)

— user795305
kaynak

1

Bu mükemmel bir ektir. +1

— Sycorax, Reinstate Monica

2

Uygun için bunu negatif log olabilirliği olarak görmek mümkündür ve uygun regülasyon önceki dağılım için negatif log olabilirliği olarak görülebilir. Bu yaklaşıma Maximum A Posteriori (MAP) denir. $L$ $J$

MAP ışığında Sycorax'ın örneklerini görmek kolay olmalıdır.

MAP'ın ayrıntıları için bu notlara bakabilirsiniz . Deneyimime göre 'maksimum posterior düzenlenmesi' konusuna girme iyi sonuçlar veriyor.

— Jakub Bartczuk
kaynak