Neden sinir ağları ile degrade iniş kullanılmalı?

Geri yayılım algoritmasını kullanarak bir sinir ağını eğitirken, ağırlık güncellemelerini belirlemek için degrade iniş yöntemi kullanılır. Benim soru: Daha çok yavaş belirli ağırlığına göre en az noktasını bulmak için dik iniş metodunu kullanarak yerine, neden türevi set değil , ve hatayı en aza indiren ağırlık değerini bulun. $\frac{d(\text{Error})}{dw}=0$ $w$
Ayrıca, geri yayılımdaki hata fonksiyonunun minimum olacağından neden eminiz? Bunun yerine hata fonksiyonunun maksimum olduğu ortaya çıkamaz mı? Sıkıştırma ağırlıklarının ve giriş vektörlerinin olduğu herhangi bir sayıda gizli düğüme sahip bir ağın her zaman bazı minimum değerleri olan bir hata işlevi vermesini garanti eden squashing işlevlerinin belirli bir özelliği var mı?

neural-networks gradient-descent backpropagation

— Minaj
kaynak

Tüm büyük harf başlıkları burada standart değildir (lütfen etrafınıza bakın) ve burada ve başka yerlerde, istenmeyen SHOUTING olarak geniş ölçüde kullanımdan kaldırılmıştır.

— Nick Cox,

@Nick Cox özür dilerim

— Minaj

Makine Öğrenimi modellerinde gizli veya gizli değişkenlerin ne zaman kullanıldığını görmek ilginçtir, optimizasyon (neredeyse?) Her zaman doğrusal olmayan, dışbükey olmayan ve optimize etmek için zorlaşır.

— Vladislavs Dovgalecs 13:15

Bilginize Neden Newton'un yöntemi makine öğrenmesinde yaygın olarak kullanılmıyor?

— Franck Dernoncourt,

Yanıtlar:

Çünkü yapamayız. Optimizasyon yüzey ağırlık bir fonksiyonu olarak doğrusal değildir ve bir kapalı form çözümü için mevcut $S(\mathbf{w})$ $\mathbf{w}$ . $\frac{d S(\mathbf{w})}{d\mathbf{w}}=0$
Degrade iniş, tanım gereği, iner. İnmeden sonra durağan bir noktaya ulaşırsanız, (yerel) bir minimum veya bir eyer noktası olmalı, ancak hiçbir zaman yerel bir maksimum olmamalıdır.

— Marc Claesen
kaynak

Eğer işlev içbükey olsaydı, gradyanın düzgün olması sonsuza kadar inerdi çünkü gitmenin tek yolu aşağı doğruydı. Hata yüzeyinin içbükey olmamasının garantili olduğunu mu söylüyorsunuz? Ayrıca, hata fonksiyonunun türevinin neden kapalı formda bir çözümü olmadığı konusunda net değil.

formunun hatası değil mi

nerede K sabittir? Bu işlev oldukça farklı görünür ve ortaya çıkan ifade analitik olarak çözülebilir. Lütfen açıkça göremediğim bir şey olduğundan netleşmeme yardım edin.

K - \frac{1}{1 + e^{Σ w x}}

$K-\frac{1}{1+e^{\Sigma wx}}$

— Minaj

Bu olamaz, çünkü yaygın olarak kullanılan tüm hata fonksiyonlarının katı bir teorik minimum 0'ı vardır. Hatalar asla negatif olamaz.

— Marc Claesen

1'in olası bir başka yorumu ise "Tam olarak yaptığımız şey bu denklemin gradyan inişini kullanarak çözülmesidir."

— Matthew Drury

Gradyan için kapalı bir form olduğu açıktır (Gradyanı verimli bir şekilde alçaltırız). Sorun, kapalı degrade kök kökü değildir = 0

— seanv507

@ seanv507 söylemek istediğim şey buydu, karışıklık için üzgünüm. Yayınımı düzenledi.

— Marc Claesen 13:15

Marc Claesen cevabı ile ilgili olarak, ben degrade iniş inanıyoruz olabilir yerel bir maksimuma başlatmak ya da sadece kötü şans ya da mistuned oranı parametresine orada sonuna kadar gerçekleşmesi durumlarda yerel maksimum durdurun. Yerel maksimum değerin sıfır gradyanı olur ve algoritma birleştiğini düşünürdü. Bu yüzden sık sık farklı başlangıç noktalarından çoklu tekrarlamalar yapıyorum ve yol boyunca değerleri takip ediyorum.

— Jared Becksfort
kaynak

Öncelikle yorumlarınızı düzenlemiştim, görünüşe göre zaten çok fazla çekim çekiyorsunuz! Siteye Hoşgeldiniz!

— Matthew Drury

Teşekkürler! Bir yorum mu yoksa bir cevap mı olması gerektiğinden emin değildim ve ilk cevabımın yalnızca buna dayanarak kayıtsızlığa düşürülmesini istemedim.

— Jared Becksfort 13:15

Newton-tipi yöntemlerde, her adımda biri çözülür $\frac{d(\text{error})}{dw}=0$

Birinin ikinci türevlerle (Hessian, özellikle Hessian-vektör ürünleri) ilgilenmesi gerekir.
"Çözme basamağı" oldukça hesaplamalı olarak pahalıdır: bir çözüme ulaşmak için gereken zamanda birçok gradyan iniş yineleme yapmış olabilir.

Eğer biri Hessian çözümü için bir Krylov yöntemi kullanıyorsa ve biri Hessian için iyi bir önkoşullayıcı kullanmıyorsa, maliyetler kabaca dengelenir - Newton yinelemeleri çok daha uzun sürer ancak daha fazla ilerleme gösterir, toplam süre kabaca aynı veya gradyan inişinden daha yavaş. Öte yandan, eğer biri iyi bir Hessian önkoşuluna sahipse, Newton'un metodu büyük zaman kazanır.

Bununla birlikte, güven bölgesi Newton-Krylov yöntemleri, modern büyük ölçekli optimizasyonda altın standarttır ve insanların daha büyük ve daha büyük problemleri çözmek istediklerinden, gelecek yıllarda sinir ağlarında kullanımlarının artmasını beklerdim. (ayrıca sayısal optimizasyonda daha fazla insanın makine öğrenmesiyle ilgilenmesi gibi)

— Nick Alger
kaynak

Bence yanlışın var. İnsanlar 90'lı yıllardan beri ağları kullanıyorlar ve ikinci dereceden yöntemlerin farkındalar. Sorun kesin olarak, çok sayıda veri olduğunda ağların başarılı olması ve daha sonra çok sayıda parametreyi desteklemesidir; bu durumda ikinci dereceden yöntemlerin zaman ve bellek kısıtlamaları etkisizdir. bkz. örneğin leon.bottou.org/publications/pdf/compstat-2010.pdf

— seanv507

@ seanv507 Gerçekten değil. Bu makaledeki ikinci dereceden yöntemlerin tartışılmasının birçok kusurları vardır, çünkü ikinci dereceden yöntemleri kullanmak için yoğun bir Hessian'ı inşa etmek ve tersine çevirmek zorunda olduğunu varsayırlar. Modern büyük ölçekli sayısal optimizasyonda bu şekilde yapılmamıştır. Modern ikinci mertebe yöntemlerde Hessian'ın vektörler üzerindeki etkisi, birleşik problemleri çözerek hesaplar ve bunları yinelemeli (Krylov) bir çözücü içinde kullanır. Genellikle, ilk iç yineleme, gradyan yönünü döndürür ve sonraki yineleme, onu iyileştirir.

— Nick Alger

Bu kağıdın belirli bir hayranı olmasam da, bunun doğru olduğunu sanmıyorum. Daha önce, hessian'ın köşegen ve azalan rütbe yaklaşımlarını tartışmış / uygulamıştır. Peki ya Pearlmutter’ın 1994 kağıt hessian ile tam olarak çarpımı?

— seanv507

Sağ. Hızlı Hessian uygulamalarına sahip olduktan sonra (Pearlmutter aracılığıyla veya sizin neye sahipseniz), Hessian çözümlerini, eşlenik gradyan gibi Krylov yöntemleriyle gerçekleştiremezsiniz. Bunu yaparak, rahatsızlık verici zorlukları doğrusal olmayan yinelemeli optimizerden uzağa, birinin problemle başa çıkacak çok sayıda makine ve ön koşullandırma tekniğine sahip olan lineer cebir yinelemeli çözücüsüne etkili bir şekilde aktarması sağlanır. İyi bir referans, Nocedal ve Wright tarafından klasik "Sayısal Optimizasyon" da güven bölgesi CG-Steihaug bölümüdür.

— Nick Alger,

Demek istediğim şu ki, 1994 yılında beri kendir ve eşlenik gradyanlar tarafından bu çarpımın, ağlar topluluğunda biliniyor olduğu söyleniyor. Bu nedenle, SGD'nin ikinci dereceden yöntemlerden ziyade kullanılmasının kesinlikle bir nedeni olduğuna inanıyorum (ve bunun kesinlikle bunun net bir şekilde çözülmesini istiyorum. )

— seanv507