İkinci dereceden türevler dışbükey optimizasyonda neden yararlıdır?


18

Sanırım bu temel bir soru ve degradenin kendisinin yönü ile ilgili, ama 2. dereceden yöntemleri (örneğin BFGS ) basit degrade iniş daha etkili olduğu örnekleri arıyorum .


3
Sadece "bir paraboloidin tepe noktasını bul" un "bu minimum asgari bul" problemine "bu lineer fonksiyonun minimumunu bul" dan çok daha iyi bir yaklaşım olduğunu gözlemlemek çok basit mi? doğrusal)?

Yanıtlar:


20

Hem degrade inişi hem de Newton'un yöntemini yorumlamak için ortak bir çerçeve var, bu da farkı @ Sycorax'ın cevabına ek olarak düşünmenin yararlı bir yolu olabilir. (BFGS, Newton'un yöntemine yaklaşıyor; özellikle burada bahsetmeyeceğim.)

işlevini en aza indiriyoruzf , ancak bunu doğrudan nasıl yapacağımızı bilmiyoruz. Bunun yerine, şu andaki noktasında yerel bir yaklaşım alıyoruz xve bunu en aza indiriyoruz.

Newton yöntemi ikinci derece Taylor genişletmesi kullanarak işleve yaklaşır: f ( x ) eğimi gösterir f noktasında X ve2 f ( x ) en Hessian x . Daha sonra, bu adım arg dakika y K x ( y ) ve tekrarlar.

f(y)Nx(y):=f(x)+f(x)T(yx)+12(yx)T2f(x)(yx),
f(x)fx2f(x)xargminyNx(y)

Hessen'e değil, sadece eğime sahip olan gradyan inişi sadece birinci dereceden bir yaklaşım yapıp bunu en aza indiremez, çünkü @Hurkyl'in belirttiği gibi minimum yoktur. Bunun yerine, adım boyutunu ve adım adım x - t f ( x ) olarak tanımlarız . Ama unutmayın ki x - ttxtf(x) Böylece gradyan inişiGx(y)fonksiyonunu en aza indirir :=f(x)+f(x)T(y-x)+1

xtf(x)=argmaxy[f(x)+f(x)T(yx)+12tyx2]=argmaxy[f(x)+f(x)T(yx)+12(yx)T1tI(yx)].
Gx(y):=f(x)+f(x)T(yx)+12(yx)T1tI(yx).

Bu nedenle gradyan inişi Newton'un yöntemini kullanmak gibidir, ancak ikinci dereceden Taylor genişlemesini almak yerine Hessian'ın 1 olduğunu iddia ederiz.. BuGgenelliklef'denN'yegöreçok daha kötü bir yaklaşımdırve bu nedenle degrade inişi genellikle Newton'un yönteminden çok daha kötü adımlar atar. Elbette bu, gradyan inişinin her adımı hesaplamak için Newton yönteminin her adımından çok daha ucuz olmasıyla dengelenir. Hangisi daha iyi, tamamen sorunun doğasına, hesaplama kaynaklarınıza ve doğruluk gereksinimlerinize bağlıdır.1tIGfN

@ Sycorax'ın ikinci dereceden f ( x ) = 1'i en aza indirme örneğine bakıldığında

f(x)=12xTAx+dTx+c

N=f

Gx(y)=f(x)+(Ax+d)Ty+12(xy)T1tI(xy)
xA

1
Bu @ Aksakal'ın cevabına benzer , ancak daha derinlemesine.
Dougal

1
(+1) Bu harika bir ektir!
Sycorax, Reinstate Monica'yı

17

Esasen, Newton'un yöntemi gibi ikinci bir türev yönteminin avantajı, ikinci dereceden sonlandırma kalitesine sahip olmasıdır. Bu, sonlu sayıda adımda ikinci dereceden bir işlevi en aza indirebileceği anlamına gelir. Degrade iniş gibi bir yöntem büyük ölçüde öğrenme hızına bağlıdır, bu da optimizasyonun optimumda sıçradığı için yavaşça yakınlaşmasına veya tamamen ayrılmasına neden olabilir. Kararlı öğrenme oranları bulunabilir ... ancak kendir hesaplamayı içerir. Sabit bir öğrenme oranı kullanırken bile, optimum etrafında salınım gibi sorunlarınız olabilir, yani her zaman minimum seviyeye doğru "doğrudan" veya "verimli" bir yol izlemezsiniz. O sonlandırmak için pek çok tekrar alabilir Yani bilegöreceli olarak ona yakınsınız. BFGS ve Newton yöntemi, her adımın hesaplama çabası daha pahalı olsa da daha hızlı bir şekilde birleşebilir.

Örnek talepleriniz için: Diyelim ki objektif fonksiyonunuz var

F(x)=12xTAx+dTx+c
F(x)=Ax+d
xk+1=xkα(Axk+d)=(IαA)xkαd.

IαA

α<2λmax,
λmaxAAA

Sinir ağlarının özel bağlamında, Sinir Ağ Tasarımı kitabı sayısal optimizasyon yöntemleri hakkında oldukça fazla bilgiye sahiptir. Yukarıdaki tartışma 9-7 bölümünün yoğunlaştırılmasıdır.


Mükemmel cevap! Basit bir açıklama sağladığını düşündüğüm için @Dougal'un cevabını kabul ediyorum.
Bar

6

f(x)=c+βx+αx2

2f(x)/x2=2α

tahmin=-β2α

Çok değişkenli durum çok benzerdir, sadece türevler için degradeler kullanın.


2

@Dougal zaten harika bir teknik cevap verdi.

Matematiksel olmayan açıklama, doğrusal (sıra 1) yaklaşımı, bir hata yüzeyindeki bir noktaya teğet olan bir "düzlem" sağlarken, kuadratik yaklaşım (sıra 2), hata yüzeyinin eğriliğine sarılan bir yüzey sağlar.

Bu bağlantıdaki videolar, bu kavramı görselleştirmek için harika bir iş çıkarıyor. Fonksiyon yüzeyine sıra 0, sıra 1 ve sıra 2 yaklaşımlarını gösterirler, bu da diğer cevapların matematiksel olarak ne sunduğunu sezgisel olarak doğrular.

Ayrıca, konu hakkında iyi bir blog yazısı (sinir ağlarına uygulanır) burada .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.