Ortalama kare hatası sinir ağları bağlamında her zaman dışbükey midir?


9

Birden fazla kaynak, MSE'nin dışbükey olduğu için harika olduğunu belirtmiştim. Ama nasıl olduğunu anlamıyorum, özellikle sinir ağları bağlamında.

Diyelim ki aşağıdakiler var:

  • X : eğitim veri kümesi
  • Y : hedefler
  • Θ : modelinin parametre seti ( doğrusal olmayan bir sinir ağı modeli)fΘ

Sonra:

MSE(Θ)=(fΘ(X)Y)2

Neden bu kayıp fonksiyonu daima dışbükeydir? Bu mı?fΘ(X)

Yanıtlar:


1

Kısaca cevap verin: MSE kendi girdisi ve parametreleri üzerinde dışbükeydir. Ancak, keyfi bir sinir ağında, aktivasyon fonksiyonları biçiminde doğrusal olmamaları nedeniyle her zaman dışbükey değildir. Cevabımın kaynağı burada .


1

Dışbükeylik

Bir işlev f(x)ile isimli dışbükey, herhangi halinde , ve herhangi , xΧx1Χx2Χ0λ1

f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2).

Bu tür dışbükey nin bir küresel minimum değere sahip olduğu kanıtlanabilir . Benzersiz bir küresel minimum, yerel bir minimum tarafından oluşturulan ve bir hata işlevinin en aza indirilmesi gibi küresel bir minimumda yakınsama elde etmeye çalışan algoritmalarda oluşabilen tuzakları ortadan kaldırır.f(x)

Bir hata fonksiyonu tüm sürekli, doğrusal bağlamlarda ve birçok doğrusal olmayan bağlamda% 100 güvenilir olsa da, olası tüm doğrusal olmayan bağlamlar için küresel minimumda yakınsama anlamına gelmez.

Ortalama Kare Hatası

İdeal sistem davranışını ve sistemin bir modelini tanımlayan bir fonksiyon verildiğinde (burada parametre vektörü, matris, küp veya hiperküp ve ), rasyonel olarak veya yakınsama yoluyla yaratılır (sinir ağı eğitiminde olduğu gibi), ortalama kare hatası (MSE) fonksiyonu aşağıdaki gibi gösterilebilir.s(x)a(x,p)p1nN

e(β):=N1n[a(xn)s(xn)]2

Okuduğunuz, malzemenin muhtemelen iddia olmadığını veya göre konveks olan , ama bu göre konveks olan ve ne olursa olsun. Bu sonraki ifade, sürekli ve için kanıtlanabilir . a(x,p)s(x)xe(β)a(x,p)s(x)a(x,p)s(x)

Yakınsama Algoritmasını Karıştırmak

Soru, makul bir MSE yakınsama marjında yaklaşan belirli ve bir elde etme yönteminin karıştırılıp karıştırılamayacağı sorusuysa, cevap "Evet" dir. Bu nedenle MSE tek hata modeli değildir.a(x,p)s(x)a(x,p)

özet

Özetlemenin en iyi yolu, 'nin aşağıdaki bilgilere dayanarak bir dizi dışbükey hata modelinden tanımlanması veya seçilmesidir.e(β)

  • Sistemin bilinen özellikleris(x)
  • Yaklaşık model tanımıa(x,p)
  • Yakınsak dizideki bir sonraki durumu oluşturmak için kullanılan tensör

Stok dışbükey hata modelleri seti, sadeliği ve hesaplama tasarrufundan dolayı kesinlikle MSE modelini içerir.


Yani kısa cevap MSE wrt Theta her zaman dışbükeydir. Her ne kadar dışbükey olmayan Feedforard (X, Theta)?
user74211

@ User74211, bu yorum aslında soruyu cevaplamıyor. Özellikle sorulan HOW ortalama kare hatası, uygulandığı işlev değilse her zaman dışbükey olabilir. Yorumunuz, açıklama aranmadan sorudaki ifadelerin bir alt kümesidir.
FauChristian
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.