Sinir ağının maliyet fonksiyonu dışbükey mi?


36

Maliyet fonksiyonu sinir ağı ait ve olduğu iddia edilen dışbükey . Neden böyle olduğunu anlamıyorum, çünkü lojistik regresyonun maliyet fonksiyonuna oldukça benzer olduğunu görüyorum, değil mi?J(W,b)

Dışbükey değilse, 2. derece türevi , değil mi?JW<0

GÜNCELLEŞTİRME

Aşağıda verilen cevaplar ve @ gung'un yorumuna teşekkürler. Anladığım kadarıyla, gizli bir katman yoksa, dışbükey, tıpkı lojistik regresyon gibi. Ancak gizli katmanlar varsa, gizli katmanlardaki düğümlerin yanı sıra müteakip bağlantılardaki ağırlıklar izin vererek, aynı kayba neden olan ağırlıklar için birden fazla çözümümüz olabilir.

Şimdi daha fazla soru,

1) Çok sayıda yerel minima var ve bunların bazıları aynı değerde olmalı, çünkü bazı düğümlere ve ağırlık permütasyonlarına karşılık geliyorlar, değil mi?

2) Eğer düğümler ve ağırlıklar hiç bir şeye izin verilmezse, o zaman dışbükey, değil mi? Ve minima küresel minima olacak. Eğer öyleyse, 1) 'e verilen cevap, tüm bu yerel minima aynı değerde olacak, doğru mu?


Birden fazla yerel minima olabileceği için dışbükey değildir.
gung - Reinstate Monica

2
Sinir ağına bağlı. Doğrusal aktivasyon fonksiyonlarına ve kare kaybına sahip sinir ağları dışbükey optimizasyon sağlar (eğer hafızam bana sabit değişkenli radyal tabanlı fonksiyon ağları için de bana hizmet ediyorsa). Bununla birlikte, sinir ağları çoğunlukla doğrusal olmayan aktivasyon işlevleriyle (yani sigmoid) kullanılır, dolayısıyla optimizasyon dışbükey olmaz.
Cagdas Ozgenc

@gung, amacına ulaştım ve şimdi daha fazla sorum var, lütfen güncellememe bakın :-)
avocado

5
Bu noktada (2 yıl sonra), sorunuzu önceki sürüme geri döndürmek, aşağıdaki yanıtlardan birini kabul etmek ve bunun bağlamla bağlantısı olan yeni bir takip sorusu sormak daha iyi olabilir.
dediklerinin - Eski Monica

1
@gung, evet haklısın, ama şimdi daha önce yanıtladığım cevabın bazı yönlerinden tam olarak emin değilim. Aşağıdaki cevaplar hakkında yeni yorumlar bıraktığım için, yeni bir soru sormanın gerekli olup olmadığını görmek için bir süre beklerim.
avokado

Yanıtlar:


25

Bir sinir ağının maliyet fonksiyonu genel olarak dışbükey veya içbükey değildir. Bu, tüm ikinci kısmi türevlerin (Hessian) matrisinin ne pozitif yarı yarı-sonsuz ne de olumsuz yarı-yarı ayrı olduğu anlamına gelir. İkinci türev bir matris olduğundan, ne biri ne diğeri olabilir.

Tek değişkenli fonksiyonlar için bu benzer hale getirmek için, bir maliyet fonksiyonu ne grafiğinin şeklindedir diyebiliriz ne de grafiğinin gibi - x 2 . Dışbükey olmayan, içbükey olmayan bir işleve başka bir örnek R'deki sin ( x ) 'dir . En çarpıcı farklılıklardan biri ± x 2'nin yalnızca bir ekstremuma sahip olmasıdır, oysa günahın sonsuz sayıda maksimum ve minimum değeri vardır.x2-x2günah(x)R,±x2günah

Bunun sinir ağımızla ilişkisi nedir? Bir maliyet fonksiyonu ayrıca bu resimde görüldüğü gibi bir dizi yerel maksima ve minimaya sahiptir .J(W,b)

Aslında birden minimuma sahiptir da güzel bir şekilde yorumlanabilir. Her katmanda, maliyet işlevini küçük yapmak için farklı parametreler atanmış birden çok düğüm kullanırsınız. Parametrelerin değerleri dışında, bu düğümler aynıdır. Böylece, bir düğümdeki ilk düğümün parametrelerini aynı katmandaki ikinci düğümünkilerle değiştirebilir ve sonraki katmanlardaki bu değişikliği hesaba katabilirsiniz. Farklı bir parametre seti ile bitirdiniz, ancak maliyet işlevinin değeri ayırt edilemez (temel olarak bir düğümü başka bir yere taşıdınız, ancak tüm giriş / çıkışları aynı tuttunuz).J


Tamam, yaptığınız permütasyon açıklamasını anlıyorum, sanırım mantıklı geliyor, ama şimdi bunun sinir ağının neden dışbükey olmadığını açıklamasının doğru olduğunu mu merak ediyorum?
avokado

1
'Otantik olanı ile ne demek istiyorsun?
Roland,

Yani, bu bir benzetme değil, nasıl yorumlanması gerektiğidir.
avokado

4
@loganecolss Maliyet işlevlerinin dışbükey olmamalarının tek nedeni değil, en belirgin nedenlerden biri olduğunuzu doğru söylüyorsunuz. Ağa ve eğitim setine bağlı olarak, birden fazla minimarkın bulunmasının başka nedenleri olabilir. Ancak, sonuç şu: Tek başına izin, diğer etkilerden bağımsız olarak, dışbükey olmayanlık yaratır.
Roland,

1
Üzgünüm, son paragrafı anlayamıyorum. Ayrıca burada neden maksimum (0, x) dediğimi de anlamıyorum. Her durumda - Ben orada çoklu modu (çoklu yerel minimum) olduğunu göstermek için doğru yolu bir şekilde kanıtlamak olduğunu düşünüyorum. ps Eğer Hessian belirsiz ise, hiçbir şey söylemedi - quasiconvex işlevi, belirsiz Hessian'a sahip olabilir, ancak hala tekdüzedir.
bruziuz,

17

Nöronları gizli katmandakilere izin verirseniz ve bitişik katmanların ağırlıkları için aynı permütasyonu yaparsanız, kayıp değişmez. Dolayısıyla ağırlıkların bir fonksiyonu olarak sıfır olmayan bir küresel minimum varsa, ağırlıkların nüfuzu başka bir minimum verdiğinden, benzersiz olamaz. Dolayısıyla işlev dışbükey değildir.


5

Amaç işlevinin dışbükey olup olmaması ağın detaylarına bağlıdır. Birden fazla yerel minimenin var olduğu durumda, hepsine eşdeğer olup olmadıklarını sorarsınız. Genel olarak, cevap hayır, ancak iyi genelleme performansı ile yerel bir minimum bulma şansı ağ boyutuyla birlikte artmış görünüyor.

Bu makale ilgi çekicidir:

Choromanska ve diğ. (2015). Çok Katmanlı Ağların Kayıp Yüzeyleri

http://arxiv.org/pdf/1412.0233v3.pdf

Girişden itibaren:

  • Büyük boyutlu ağlar için çoğu yerel minima eşdeğerdir ve bir test setinde benzer performans sağlar.

  • Yerel bir "kötü" (yüksek değer) yerel minimum bulma olasılığı, küçük boyutlu ağlar için sıfır değildir ve ağ boyutu ile hızla azalır.

  • Eğitim setinde küresel en düşük seviyeyi bulmak için mücadele etmek (çok iyi yerel olanlardan birinin aksine) pratikte kullanışlı değildir ve fazla uydurmalara yol açabilir.

Ayrıca, büyük ağları eğitirken, eyer noktalarının yerel minimale göre daha büyük bir sorun olduğunu açıklayan bazı makalelere de değiniyor.


4

Güncellemeleriniz için bazı cevaplar:

  1. Evet, genel olarak çoklu yerel minima var. (Sadece bir tane olsaydı, buna global minimum denirdi.) Yerel minima mutlaka aynı değerde olmayacak. Genel olarak, aynı değeri paylaşan yerel bir minima bulunmayabilir.

  2. Hayır, tek katmanlı bir ağ olmadığı sürece dışbükey değil. Genel çok katmanlı durumda, sonraki katmanların parametreleri (ağırlıklar ve etkinleştirme parametreleri) önceki katmanlardaki parametrelerin oldukça özyinelemeli işlevleri olabilir. Genel olarak, bazı özyinelemeli yapı tarafından getirilen karar değişkenlerinin çarpımı, konveksiteyi yok etme eğilimindedir. Bunun bir başka harika örneği, zaman serileri analizindeki MA (q) modelleridir.

yXy-Xβ


1
"tek katmanlı ağ", "softmax" veya lojistik regresyonun neye benzediği gibi olur, değil mi?
avokado

"Düğümlere ve ağırlıklara izin vermek" derken, "takas" demek istedim, ve yukarıdaki 2 eski cevaptan aldığım şey buydu ve cevaplarını anladığım gibi, düğümleri ve ağırlıkları gizli katmanlardaki "takas" ile bitirdik ; teoride aynı çıktı, ve bu yüzden çoklu minimalarımız olabilir. Bu açıklamanın doğru değil mi demek istiyorsun?
avokado

Doğru bir fikre sahipsin, ama tamamen aynı değil. Ağlar için, kayıp mutlaka binom kaybı olmayabilir, aktivasyon fonksiyonları mutlaka sigmoidler, vb. Olmayabilir
Mustafa S

Evet, doğru olduğunu sanmıyorum. Bu şartlara izin verip vermediğinizle aynı performansı elde edeceğiniz doğru olsa bile, bu herhangi bir sorunun dışbükeyliğini veya dışbükeyliğini tanımlamaz. Eğer optimizasyon problemi, sabit bir kayıp fonksiyonu için (zarardaki terimlerin herhangi bir şekilde değişmemesi durumunda), amaç fonksiyonu model parametrelerinde dışbükeyse ve optimize ettiğiniz uygun bölge dışbükey ve kapalıysa, dışbükeydir.
Mustafa S Eisa

Görüyorum ki "tek katmanlı" ise, "softmax" olmayabilir.
avokado

2

Eğer problem dışbükey veya yarı-konveks ise, küresel bir minimum değeriniz olacaktır.

Bina sinir ağları sırasındaki dışbükey "yapı taşları" hakkında (Bilgisayar Bilimleri sürümü)

Bence bunlardan bahsedilebilecek birkaç tane var:

  1. max (0, x) - dışbükey ve artan

  2. log-sum-exp - dışbükey ve her parametrede artış

  3. y = Balta afindir ve (A) 'da dışbükeydir, belki azalabilir. y = Axe afindir ve (x) 'deki dışbükeydir, belki azalabilir.

Ne yazık ki (A, x) 'de dışbükey değil çünkü belirsiz ikinci dereceden forma benziyor.

  1. Genel matematik ayrık evrişimi ("normal" ile, tekrarlayan sinyal ile tanımlanmış demek istiyorum) Y = h * X, h veya X değişkeninin afin işlevine benziyor gibi görünüyor. Bu, h değişkeninde veya X değişkeninde bir dışbükeydir. Öyle sanmıyorum çünkü h ve X skaler olduklarında evrişim belirsiz kuadratik forma düşecektir.

  2. max (f, g) - eğer f ve g dışbükey ise o zaman maksimum (f, g) dışbükeydir.

Bir işlevi başka bir yerine koyarsanız ve kompozisyonlar oluşturursanız, o zaman hala dışbükey odada y = h (g (x), q (x)) için hareket edin, ancak h, dışbükey olmalı ve her bir argümanda artmalı (düşmemelidir). ...

Neden dışbükey olmayan sinir ağları:

  1. Evrişimin Y = h * X'in h'de artması gerekmediğini düşünüyorum. Bu nedenle, çekirdek hakkında herhangi bir ek varsayım kullanmazsanız, evrişim uyguladıktan hemen sonra dışbükey optimizasyondan çıkacaksınız. Yani kompozisyon ile hepsi iyi değil .

  2. Ayrıca evrişim ve matris çarpımı, yukarıda belirtildiği gibi çift ​​parametrelerini dikkate alırsanız dışbükey değildir . Yani, matris çarpımında problemler var: parametrelerde dışbükey olmayan bir işlem (A, x)

  3. y = Ax, (A, x) 'te quasiconvex olabilir, ancak ilave varsayımlar da dikkate alınmalıdır.

Lütfen kabul etmiyorsanız veya ek bir sorunuz varsa lütfen bana bildirin. Soru da benim için çok ilginç.

ps max-pooling - max'ı seçmekle aşağı örnekleme olan, afin ön kompozisyonu ile (element bloklarını çekmek için) elementwise max işlemlerinin bazı modifikasyonlarına benziyor ve benim için dışbükey görünüyor.

Diğer sorular hakkında

  1. Hayır, lojistik regresyon dışbükey veya içbükey değil, log-içbükeydir. Bu, logaritmayı uyguladıktan sonra açıklayıcı değişkenlerde içbükey fonksiyonun olacağı anlamına gelir. Yani burada maksimum log-olabilirlik hile harika.

  2. Sadece bir küresel minimum değil ise. Yerel minimumlar arasındaki ilişki hakkında hiçbir şey söylenemez. Veya en azından dışbükey optimizasyon kullanamazsınız ve bunun uzantılarıdır, çünkü bu matematik alanı derinlemesine küçümseyiciye dayanmaktadır.

Belki bu konuda kafanız karışır. Çünkü gerçekten bu tür şemalar yaratan insanlar sadece “bir şeyler” yaparlar ve “bir şeyler” alırlar. Maalesef, dışbükey olmayan optimizasyonla başa çıkmak için mükemmel bir mekanizmaya sahip olmadığımız için (genel olarak).

Ancak, Sinir Ağları'nın yanı sıra doğrusal olmayan en küçük kareler gibi çözülemeyen daha basit şeyler var - https://youtu.be/l1X4tOoIHYo?t=2992 (EE263, L8, 50:10)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.