Uzayda keyfi bir noktaya L2 düzenlenmesi nasıl uygulanır?


11

İşte Ian Goodfellow'un Deep Learning kitabında okuduğum bir şey .

Sinir ağları bağlamında, "L2 parametre normu cezası genellikle ağırlık azalması olarak bilinir. Bu düzenleme stratejisi ağırlıkları başlangıç ​​noktasına yakınlaştırır [...]. Daha genel olarak, parametreleri herhangi bir noktaya yakın olacak şekilde düzenleyebiliriz ancak model parametrelerini sıfıra doğru düzenlemek çok daha yaygındır. (Deep Learning, Goodfellow ve ark.)

Ben sadece merak ediyorum. Maliyet fonksiyonumuza sadece düzenleyici bir terim ekleyerek ve bu toplam maliyet en aza indirerek , modelin parametrelerini küçük kalmasını etkileyebileceğimizi anlıyorum:J

J(Θ,X,y)=L(Θ,X,y)+λ||w||22

Peki, bu düzenleme stratejisinin parametreleri herhangi bir keyfi noktaya yönlendirecek bir versiyonu nasıl uygulanır? (normun 5'e doğru olmasını istiyoruz)

Yanıtlar:


14

Aslında iki farklı soru soruyorsunuz.

  1. Normun 5 olması, ağırlıkların yarıçap 5 ile merkezlenmiş bir hiper kürenin yüzeyine yakın olmasını istediğiniz anlamına gelir.

J(Θ,X,y)=L(Θ,X,y)+λ(||w||225)2

Ama bunun yerine λabs(||w||225) gibi bir şey kullanabilirsiniz.

  1. Öte yandan, keyfi bir noktaya yönelmek istiyorsanız, o noktayı merkez olarak kullanmanız yeterlidir c .

J(Θ,X,y)=L(Θ,X,y)+λ||wc||22

(+1) "Beşe eğilimli norm" hakkında düşünmenin verimli bir yolu, OP tarafından verilen sürümündeki ayarlama parametresi seçimi yoluyla olabilir (işlevi değiştirmek yerine)J
user795305

(Yukarıda ne demek istediğimi açıklığa kavuşturmak için kısa bir cevap yazdım. Bu arada, sorulan iki sorunun ayrımını açıkladığınız için teşekkür ederim!)
user795305

Bunu yaparken sık karşılaşılan (pratik) bir hedef, bilinen bir çalışma noktasına doğru, örneğin değiştirmek istediğiniz ancak bunun için "yumuşak" bir geçiş yapmak istediğiniz önceki modeli düzenli hale getirmektir
oDDsKooL

6

tanımlayınOlduğunu biliyoruz , bağlı cezası da asgarileştirir olarak orijini olan.

w^λ=argminwL(Θ,X,y)+λw22.
limλw^λ=0ww22

Sycorax, benzer şekildeBu başarılı genelleme bizi önermemize yol açabilir burada bir işlevdir Küçültücü aradığımız bazı malları tatmin ediyor. Gerçekten de, Sycorax , burada başlangıç ​​noktasında (benzersiz olarak) en aza indirilir ve özellikle . Bu nedenle , istendiği gibi. Ne yazık ki, yine de, her ikilimλ{argminwL(Θ,X,y)+λwc22}=c.

w~λ=argminwL(Θ,X,y)+λpen(w),
penpen(w)=g(w225)gg{||,()2}limλw~λ22=5gdışbükey cezalara yol açarak tahmin edicinin hesaplanmasını zorlaştırır.

Yukarıdaki analiz en iyi çözüm gibi görünüyor (belki de seçimine, daha fazla önereceğim daha iyi bir şeyim yok) tarif edilen "eğilim" in benzersiz yorumu olarak ısrar edersek soru. Ancak, , bazı var, böylece OP sorununun minimizer Lambda'sı satsifes . Bu nedenle nesnel işlevi değiştirmeye gerek kalmadan. Böyle bir yoksa, bilgi işlem sorunugλargminwL(Θ,X,y)225Λw^Λw^Λ22=5

limλΛw^λ22=5,
Λargminw:w22=5L(Θ,X,y) esasen zordur. Gerçekten de, doğal özelliklerini teşvik etmeye çalışırken dışında herhangi bir tahminci düşünmeye gerek yoktur .w^λw^λ22

(Cezalandırılmış bir tahmincinin, deneyimsiz tahminci tarafından elde edilemeyen bir ceza değerine ulaşmasını sağlamak benim için son derece doğal görünmüyor. Aslında bunun istendiği herhangi bir yerden haberdar olan varsa, lütfen yorum yapın!)


1
Bu mükemmel bir ektir. +1
Sycorax, Reinstate Monica

2

Uygun için bunu negatif log olabilirliği olarak görmek mümkündür ve uygun regülasyon önceki dağılım için negatif log olabilirliği olarak görülebilir. Bu yaklaşıma Maximum A Posteriori (MAP) denir.LJ

MAP ışığında Sycorax'ın örneklerini görmek kolay olmalıdır.

MAP'ın ayrıntıları için bu notlara bakabilirsiniz . Deneyimime göre 'maksimum posterior düzenlenmesi' konusuna girme iyi sonuçlar veriyor.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.