derin öğrenme yerel eyer vs eyer puan

Andrew Ng'i (maalesef artık bulamadım bir videoda) derin öğrenme problemlerindeki yerel minima anlayışının şimdi daha az sorunlu olarak kabul edildikleri için nasıl değiştiği hakkında konuştuğunu duydum. derin öğrenme) kritik noktaların yerel minimadan ziyade eyer noktaları veya platolar olması daha olasıdır.

"Her yerel minimumun küresel bir minimum olduğu" varsayımlarını tartışan makaleler (örneğin bu ) gördüm . Bu varsayımların hepsi oldukça tekniktir, ancak anladığım kadarıyla sinir ağına biraz doğrusal hale getiren bir yapı dayatma eğilimindedirler.

Derin öğrenmede (doğrusal olmayan mimariler dahil) platoların yerel minimadan daha olası olduğu geçerli bir iddia mı? Ve eğer öyleyse, arkasında (muhtemelen matematiksel) bir sezgi var mı?

Derin öğrenme ve eyer noktaları hakkında özel bir şey var mı?

— oW_
kaynak

Bir eyer noktasının neden yerel bir minimumdan daha olası olduğu matematiksel sezgiye gelince, bunu özellikler açısından düşünürdüm. Yerel bir minimum olmak için, her yönden yerel bir minimum olmalıdır. Buna karşılık, bir sele noktası için, sadece 1 yönün diğerlerinden farklı olması gerekir. Tüm yönlerde aynı davranışa kıyasla 1 veya daha fazlasının diğerlerinden farklı davranışlara sahip olması çok daha olasıdır.

— Paul

teşekkürler, şimdi bunu söylemek o, bu tür bariz var ... Burada konunun bazı ilginç tartışma

— oW_

Andrew Ng, Coursera kursunun "Derin Sinir Ağlarını İyileştirme: Hiperparametre ayarlama, Düzenleme ve Optimizasyon" dersinin 2. haftasında "Yerel minima sorunu" ile ilgili bir video yayınladı. Belki de aradığınız kişi budur.

— mjul

bakmak burada

— Medya

Yanıtlar:

Bu sadece sezgilerimi aktarmaya çalışıyor, yani titizlik yok. Eyer noktaları olan şey, minima ve maxima kombinasyonunu birleştiren bir optimum tiptir. Boyutların sayısı derin öğrenme ile çok fazla olduğundan, optimumun sadece bir minima kombinasyonundan oluşma olasılığı çok düşüktür. Bu, yerel minimumda 'takılmak' nadirdir. Aşırı basitleştirme riski altında, bir eyer noktasında 'takılmak' daha zordur, çünkü 'boyutlardan birini aşağı kaydırabilirsiniz'. Sanırım bahsettiğiniz Andrew Ng videosu, Deep Learning'in Coursera kursundan geliyor.

— user41985
kaynak

Çok değişkenli analize dayalı bir açıklama yapmama izin verin. Çok değişkenli bir ders aldıysanız, kritik bir nokta (gradyanın sıfır olduğu nokta) verildiğinde, bu kritik noktanın minimum olması koşulunun, Hessian matrisinin pozitif kesin olmasıdır. Hessian simetrik bir matris olduğundan, köşegenleştirebiliriz. Hessian'a karşılık gelen diyagonal matrisi şöyle yazarsak: Hessian'ın pozitif tanımlı olmasıeşittir.

D = [\begin{matrix} d_{1} \\ ⋱ \\ d_{n} \end{matrix}]

$D = \begin{bmatrix} d_{1} & & \\ & \ddots & \\ & & d_{n} \end{bmatrix}$

d_{1} > 0, \dots, d_{n} > 0

$d_1 > 0, \dots, d_n>0$

$d_1,\dots,d_n$ $d_i$ $1/2$ $d_i$ $d_j$ , Hessian matrisinin yüksek lineer olmayışı nedeniyle, bağımsız olaylar olarak pozitif olma olasılıklarını alacağız.

P (d_{1} > 0, ..., d_{n} > 0) = P (d_{1} > 0) \cdot \dots \cdot P (d_{n} > 0) = \frac{1}{2^{n}}

$P(d_1 > 0, \dots, d_n > 0) = P(d_1 > 0)\cdot \cdots \cdot P(d_n > 0) = \frac{1}{2^n}$

$10^8$ $1/2^n$

Peki ya maxima?

$1/2 ^n$

P (s bir d d l e) = 1 - P (m bir x ben m u m) - P (m ben n ben m u m) = 1 - \frac{1}{2^{n}} - \frac{1}{2^{n}} = 1 - \frac{1}{2^{n - 1}}

$P(saddle) = 1 - P(maximum) - P(minimum) = 1 - \frac{1}{2^n} - \frac{1}{2^n} = 1 - \frac{1}{2^{n-1}}$

$n$

— David Masip
kaynak