Düzenleme terimi * maliyet işlevine * eklenmiştir (çarpım yerine vs.)?


51

Düzenleme kullanıldığında, genellikle aşağıdaki maliyet işlevindeki gibi maliyet işlevine eklenir. Bu, ekranın küçültülmesinden beri sezgisel bir anlam ifade eder. maliyet fonksiyonu, aynı zamanda hatayı minimize etmek (sol terim) ve katsayıların büyüklüğünü (doğru terim) en aza indirmek (veya en azından iki minimizasyonu dengelemek) anlamına gelir.

J(θ)=12(yθXT)(yθXT)T+αθ22

Sorum şu, neden bu düzenlileştirme terimi αθ22 orijinal maliyet işlevine eklenmiş ve çarpılmamış veya düzenleme fikrinin arkasındaki motivasyonun ruhunu koruyan başka bir şey değil mi? Bunun sebebi, basitçe üzerinde terim eklersek, yeterince basit ve bunu analitik olarak çözmemizi sağladığı için mi yoksa daha derin bir nedeni mi var?


1
Başka bir argüman temsilci teoremi yoluyla,
jkabrg

2
lagrangça çarpanı
Haitao Du

9
Eğer gözlemlerden daha fazla bağımsız değişkeniniz varsa, o zaman 12(yθXT)(yθXT)T sıfıra birkaç farklı şekilde getirebilirsiniz , bu yüzden hiçbir şey ile çarpma yararlı bir model ayırt etmek için yardım
Henry

Yanıtlar:


47

Bayesian çerçevesinde oldukça hoş bir sezgiye sahip. Düzenli maliyet fonksiyonunun J , X, y gözlemleri göz önüne alındığında, bir parametre yapılandırması \ teta olasılığı ile benzer bir role sahip olduğunu düşünün . Bayes teoremini uygulayarak aşağıdakileri elde ederiz:θX,y

P(θ|X,y)=P(X,y|θ)P(θ)P(X,y).

İfadenin günlüğünü almak bize şunları verir:

logP(θ|X,y)=logP(X,y|θ)+logP(θ)logP(X,y).

Şimdi, diyelim ki negatif 1 log-posterior, . Son terim bağlı olmadığından , minimum değeri değiştirmeden ihmal edebiliriz. İki terim bırakılır: 1) ve bağlı olarak ve 2) yalnızca bağlı olarak önceki terimi . Bu iki terim, formülünüzdeki veri terimine ve düzenlileştirme terimine tam olarak tekabül eder.J(θ)logP(θ|X,y)θlogP(X,y|θ)XylogP(θ)θ

Daha da ileri gidebilir ve gönderdiğiniz kayıp fonksiyonunun tam olarak aşağıdaki modele karşılık geldiğini gösterebilirsiniz:

P(X,y|θ)=N(y|θX,σ12),
P(θ)=N(θ|0,σ22),

Parametreler nerede sıfır ortalama Gauss dağılımından gelip gözlemler sıfır ortalama Gauss gürültü var. Daha fazla ayrıntı için bu cevaba bakınız .θy


1 Olasılığı en üst düzeye çıkarmak , ancak maliyeti en aza indirmek istediğiniz için negatif .


5
Bu cevaptan biraz tatmin olmuyorum çünkü sadece maliyet fonksiyonu ile log-posterior arasındaki uyuşmazlığı sadece el sallıyor. Maliyet log-posterior ile aynı değilse posteriorun kendisiyle uyuşmuyorsa, düzenlemenin normalize edilmemiş maliyetle çarpılması gerektiği sonucuna vardık (OP'nin sorduğu gibi). - Bu cevabı doğru bir şekilde doğrulamak için, neden maliyete eşit olduğumuzun log-posterior olduğunu haklı göstermeniz gerekir. ("Daha da ileri git" ile bir çeşit iş yaparsınız, ancak bu noktada biraz el dalgası elde edersiniz.)
RM

1
@RM, geçerli nokta. Bunun bir nedeni var: çünkü makine öğrenmesinde kullanılan standart kayıp fonksiyonları, posteriorun kendisinden ziyade log-posterior'a karşılık geliyor. Neden? Çünkü ampirik risk azaltma kullanıyorlar; ve standart kayıp işlevleri genellikle burada , log-posterior olasılığı olarak makul bir yorumu olan bir kayıp fonksiyonudur. (Bunu bildiğinden şüpheliyim, ama sadece diğer ziyaretçiler için heceleyeceğim.)logP(X1,,Xn,y1,,yn|θ)=ilogP(Xi,yi|θ)if(Xi,yi,θi)f
DW

Bazı maliyet varsa @RM daima sadece açısından sorununuzu yeniden tanımlamak olabilir . Başka bir deyişle, maliyet işleviniz ne olursa olsun, MCMC yöntemlerini kullanırken göz ardı edebileceğiniz bazı normalleştirici sabitlere bölünen temelli bir dağılım tanımlar . Her zaman üstel bir şekilde yeniden sıralayabileceğiniz gerçeği, örneğin benzetilmiş tavlama, MCMC örnekleyicileri, vb. İçin çok önemlidirCC=explnCexplnC
ely

@RM, örneğin, düşünün bu kağıdı istiyorum", Haziran Liu tarafından (ve Liu'nun MCMC kitapta da benzer bir açıklama yoktur) diyor 3. sayfadaki altındaki, inceleme altındaki hedef olasılık dağılımı (muhtemelen tüm pdfs'ler bu biçimde yazılabilir) "" (vurgu eklenmiştir). Dolayısıyla, olabilirlik modeliyle tanımlanan posterior kısmının bu kayıp fonksiyonu olacağı Bayes bakış açısından, bu cevap için bu Bayesian ayrışması tamamen genel olacaktır. π(x)=cexph(x)
ely

Cevap için teşekkürler! Yazınızın başında "onu" anlamaya çalışıyorum: Bayes çerçevesi içinde tam olarak sezginin ne olduğunu iddia ediyorsunuz? ceza eklemenin neden iyi tahminciler verdiğinin temel nedeni? ya da insanların bu katkı tahmin edicilerini kullanmasının tarihsel (ve istatistiksel olmayan) nedeni? (
İfademi önerme girişiminde

34

Jan ve Cagdas , regüle ediciyi bir öncek olarak yorumlayarak iyi bir Bayesian nedeni veriyorlar. İşte bazı Bayesian olmayanlar:

  • Düzensiz hedefiniz dışbükeyse ve bir dışbükey düzenleyici eklerseniz, toplam hedefiniz yine de dışbükey olacaktır. Eğer çoğaltırsanız ya da diğer birleştirme yöntemlerinden biri bu durum geçerli olmayacak. Dışbükey optimizasyon dışbükey olmayan optimizasyona kıyasla gerçekten, gerçekten güzel; dışbükey formülasyon çalışıyorsa, bunu yapmak daha iyidir.

  • Bazen çok basit bir kapalı forma yol açar, çünkü su birikintisi regresyon için söz konusudur.

  • Sorunu düşünüyorsanız, "gerçekten" zorlu bir kısıtlama olan bir sorunu çözmek istiyorsanız o zaman Lagrange duali sorun Eğer olmasa da var Lagrange ikiliği kullanmak, çok bu konuda anlaşılmaktadır.

    minθ:c(θ)0J(θ),
    minθJ(θ)+λc(θ).
  • Gibi söz ogogmad , DANIŞMANI teoremi bir katkı cezasının durumunda uygulanır: Eğer optimize etmek istiyorsanız bir bütün üzerinde doğuran çekirdek Hilbert uzay fonksiyonlarının , o zaman biliyoruz ki bütün uzay üzerinde optimizasyon çözüm birçok kayıp için basit sonlu boyutlu bir alt uzayda uzanır ; Bunun çarpımsal bir düzenleyici için geçerli olup olmayacağını bilmiyorum (olsa da). Bu, çekirdek SVM'lerin temelini oluşturur.fH

    minfHJ(f)+λfH2
    J
  • Zaten derin bir öğrenme ya da dışbükey olmayan bir şey yapıyorsanız: ek kayıplar basit ek gradyanlar verir. basit için, çok basit bir ağırlık kaybı olur . Ancak daha karmaşık bir düzenleyici için bile , WGAN-GP’nin kaybını geri yayılımın, sadece kayıp toplamı ve karmaşık düzenleyicinin toplamını göz önünde bulundurması gerektiğinde (işleri ayrı olarak düşünün) hesaba gradyanları hesaplamak daha kolaydır. Ürün kuralını yapın.L2

    x,yfθ(x)fθ(y)the loss+λE^αUniform(0,1)(fθ(αx+(1α)y)1)2the regularizer,
  • Katkı kayıpları, popüler ADMM optimizasyon algoritması ve diğer "ayrıştırma" esaslı algoritmalara da uygundur.

Bunların hiçbiri zor ve hızlı kurallar değildir ve gerçekten de bazen çarpıcı (veya başka bir) düzenleyici daha iyi çalışabilir ( ogogmad'in işaret ettiği gibi ). (Aslında, sadece geçen gün sunulan bir kağıt çarpımsal regularizer katkı biri yukarıda! WGAN-GP daha iyi yapar gibi yorumlamak nasıl bir şey hakkında) Ama umarım bu katkı regularizers neden açıklamaya yardımcı olur "default".


2
+1. [Muhtemelen NIPS] başvurunuzda başarılar!
amip diyor Reinstate Monica

13

Amaç işlevinde her iki terimi de en aza indirmek istiyorsunuz . Bu nedenle, terimleri ayırmanız gerekir. Terimleri çarparsanız, bir terim büyük diğeri çok düşük olabilir. Bu yüzden, hala nesnel fonksiyonun düşük bir değeri ile bitirdiniz, ancak istenmeyen bir sonuç ile.

Tahmini gücü olmayan, sıfıra en yakın değişkene sahip bir model ile bitebilirsiniz.

görüntü tanımını buraya girin görüntü tanımını buraya girin

Minimize edilmesi gereken fonksiyon olan objektif fonksiyon, maliyet fonksiyonunun ve düzenlileştirme şartlarının toplamı olarak oluşturulabilir.

Her ikisinin de birbirinden bağımsız olması durumunda, amaç için ilk şekilde gösterilen değerleri elde edersiniz. Toplamı görürseniz, (0, 0) 'da sadece bir minimum değer vardır. Ürün durumunda belirsizlik var. Sıfıra eşit bir tam hiper yüzeyiniz var (x = 0 veya y = 0). Dolayısıyla, optimizasyon algoritması, başlangıç ​​durumuna bağlı olarak herhangi bir yerde son bulabilir. Ve hangi çözümün daha iyi olduğuna karar veremez.


10

Diğer ikili işlemleri deneyebilirsiniz ( ) ve nasıl karşılaştırıldıklarını görebilirsiniz.max,min,×

ve ile ilgili sorun , eğer hata , o zaman düzenli ceza . Bu, modelin üst üste gelmesini sağlar.min×00

ile ilgili sorun , iki cezanın "zorlanmasını" en aza indirgemenizdir (antreman hatası veya düzenlenme), diğerini değil.max

Buna karşılık, basittir ve çalışır.+

Neden diğer ikili işlemlerin olmadığını sorabilirsiniz? Onları dışlayabilecek bir tartışma yok, peki neden olmasın?


8

Bence geçerli bir sorunuz var. Size doğru bir cevap verebilmek için, sorunun olası doğasını anlamalısınız.

Genel olarak çözmeye çalıştığımız sorun şudur: Veriler verildiğinde, bu verileri açıklayan hipotezlerin dağılımı nedir? Hipotez derken bir PDF kastediyoruz (en azından bu bağlamda). Ve hipotezlerin dağıtımı bir PDF PDF'sidir, yani, .Dp(H|D)

  1. p(H|D) , verilen hipotezler üzerinde bir dağılımdır . Bunu bulabilirsek, bu hipotezlerden birini, örneğin en yüksek olasılığı olanı seçebiliriz veya hepsinin ortalamasını seçebiliriz. Biraz daha kolay bir yaklaşım, Bayes Teoremi'ni kullanarak soruna farklı bir yönden saldırmaktır.D

    p(H|D)=p(D|H)×p(H)p(D)
  2. p(D|H) hipotezlerden biridir, aynı zamanda olasılık denir. veriyi gözlemlemeden önce hipotezler evrenimizdeki hipotezlerin dağılımı. Verileri gözlemledikten sonra inançlarımızı güncelleriz.p(H)

  3. p(D) inançlarımızı güncellemeden önce hipotezlerin ortalamasıdır.

Şimdi , Bayes denkleminin her iki tarafının da log'unu alırsak şunu alırız:log

log[p(H|D)]=log[p(D|H)]log[p(H)]+log[p(D)]

Genellikle nin hesaplanması zordur. İyi olan, sonucu etkilememesidir. Bu sadece normalleştirme sabitidir.p(D)

Şimdi mesela, eğer hipotezler grubumuz bilmediğimiz , olan bir grup Gauss ise , ancak (veya en azından bunun bir sabit olduğunu varsayalım) bildiğini varsayalım ve dahası, hipotezlerin kendilerini ile bir Gauss olarak dağıttığını varsayınız. sonra yukarıdaki her şeyi takarak gibi görünüyor:p(D|H)p(y|X,θ)N(θX,σ)θσp(H)=p(θ)N(0,α1I)

log[p(H|D)]=bunch of constants+12(yθX)2+12α||θ||2+constant

Şimdi, bu ifadeyi en aza indirirsek, en yüksek olasılığı olan hipotezi buluruz. Sabitler küçültmeyi etkilemez. Sorunuzdaki ifade budur.

Gaussyalıları kullanmamız, düzenlenme teriminin ek olduğu gerçeğini değiştirmiyor. Katkı maddesi olmalı (kütük açısından veya olasılıklarda çarpma), başka bir seçenek yoktur. Diğer dağıtımları kullanırsak, değişecek olan şey ilavenin bileşenleridir. Sağladığınız maliyet / kayıp işlevi, Gaussianların belirli bir senaryosu için idealdir.


Hey Çağdaş, açıklama için teşekkürler. RHS'deki son denklemin dönüşümünü anlamadım. Bu kısmı daha net anlayabilmem için bir kaynağa işaret edebilir misiniz
Itachi

7

Sırtı çok uygun bir formülasyondur. Olasılıksal cevapların aksine, bu cevaplar tahminin hiçbir yorumunu yapmaz, bunun yerine sırtın neden eski ve açık bir formülasyon olduğunu açıklar.

Doğrusal regresyonda normal denklemler θ^=(XTX)1XTy

Ancak, matrisi bazen ters çevrilemez; : ayarlamak için bir yol çapraz küçük bir öğesi ekleyerek olan .XTXXTX+αI

Bu çözüm verir: ; Daha sonra orijinal sorunu çözmez, bunun yerine sırt problemini çözer.θ~=(XTX+αI)1XTyθ~


3
Lütfen atıfta bulunduğunuz cevapları belirtin. Oylar, “yukarıda” öylesine toplandıkça, sıralar belirsizdir.
gung - Monica’yı yeniden

1

Düzenleme terimi ile neden çarpılamamamız konusunda daha sezgisel bir neden olduğunu düşünüyorum.

Ceza fonksiyonumuzu, önerdiğiniz gibi bir düzenlileştirme terimi ile çarpılan normal ceza fonksiyonuna götürelim.

J(θ)=(12(yθXT)(yθXT)T)αθ22

Burada olduğunda ceza fonksiyonunda global bir asgari değer . Bu durumda modelimiz tahmin ve veri arasında yüksek hatalar üretebilir ancak fark etmez, model parametresi ağırlıkları sıfır ise ceza fonksiyonumuz sıfırdır .αθ22=0J(θ=0)=0

Modelimiz tamamen mükemmel olmadıkça, asla sıfır olamaz (bir ayar olasılığı vardır) Modelimizi 'mükemmel' yapmak gerçek veriler için önemsizdir).(12(yθXT)(yθXT)T)

Yerel bir minimumda sıkışıp kalmazsa geri döneceği şey budur.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.