Jed Brown'un belirttiği gibi, doğrusal olmayan optimizasyondaki gradyan inişi ile dinamik sistemlerin zaman adımlaması arasındaki bağlantı bazı frekanslarla yeniden keşfedilir (anlaşılabilir bir şekilde, çünkü görünüşte farklı iki alanı birbirine bağladığı için matematiksel zihne çok tatmin edici bir bağlantıdır). Ancak, özellikle tarif ettiğiniz bağlamda nadiren yararlı bir bağlantı olduğu ortaya çıkar .
Ters problemler, insanlar (kötü poz) operatörü denklemi çözerek ilgilenen edilir ile değil aralığında . (Optimal kontrol probleminiz ve ile bunun bir örneği olarak görülebilir .) Birkaç düzenleme stratejisi (Tikhonov veya Landweber gibi) tek bir sözde zaman olarak yorumlanabilir belirli bir sınıfın adımı. Buradaki fikir, parametre için bazı (uyarlanabilir, bir posteriori) seçim kuralları elde etmek için normalleştirme parametresinin yorumlanmasını bir adım uzunluğu olarak kullanmaktır - ters problemlerde temel bir sorun - ve muhtemelen birden fazla sahte zaman adımı yapmak gerçek, düzenli olmayan çözüme yaklaşın (y δ F F = A - 1 y δ = y 0F( u ) = yδyδFF= A- 1yδ= y0sayısal devam ). Buna bazen sürekli düzenlileştirme denir ve genellikle seviye belirleme yöntemleri bağlamında tartışılır; bakınız, örneğin, Kaltenbacher, Scherzer, Neubauer Bölüm 6.1: Doğrusal Olmayan Hastalıklı Sorunlar İçin İteratif Düzenleme Yöntemleri (de Gruyter, 2008).
Bu fikrin tekrar tekrar ortaya ikinci bir bağlam doğrusal olmayan optimizasyon: için degrade iniş adımına bakarsanız ,
bunu dinamik sistem için ileri Euler adımı
olarak yorumlayabilirsiniz
Jed Brown belirttiği gibi, sözde zamanı basamaklar sağlanan bu yöntem yakınsak, bu ilk bakışta verim sadece çok şaşırtıcı değil gözlem küçük yeterlidir. Eğer dinamik sistem bakıp kendinize sorduğunuzda ilginç kısım geliyor hangi özellikleri sürekli çözüm olarak adlandırılan bir gradyan akışıx k + 1 = x k - γ k ∇ f ( x k ) , ˙ x ( t ) = - ∇ f ( x ( t ) ) ,minxf( x )
xk + 1= xk- γk∇ f( xk) ,
γ k x ( t )x˙( t ) = - ∇ f( x ( t ) ) ,x ( 0 ) = x0.
γkx ( t )eğim inişinden bağımsız olarak (veya olması gerekir) ve bunun standart Euler'den daha uygun zaman adımlama (ve dolayısıyla optimizasyon) yöntemlerine yol açıp açmayacağı. Kafamın üstünden bazı örnekler:
Degrade akışının yaşadığı doğal bir işlev alanı var mı? Eğer öyleyse, gradyan adımınız aynı alandan atılmalıdır (yani, ayrıklaştırma uygun olmalıdır). Bu, örneğin, farklı iç ürünlere (bazen Sobolev gradyanları olarak da adlandırılır ) göre gradyanın Riesz temsillerini hesaplamaya ve pratikte çok daha hızlı yakınlaşan ön koşullu yinelemelere yol açar.
Belki bir vektör uzayına değil, bir manifolda (örn., Simetrik pozitif belirli matrisler) ait olmalıdır veya gradyan akışı belirli bir normunu korumalıdır . Bu durumda, yapıyı koruyan zaman atlama şemaları uygulamaya çalışabilirsiniz (örn., Uygun bir Lie grubuna veya geometrik bir entegratöre göre geri çekme içerir).xxx
Eğer türevlenebilir değil ama dışbükey nedeniyle adım büyüklüğü kısıtlamalar oldukça yavaş bir subgradient iniş yöntemi ileri Euler adım denk gelmektedir. Öte yandan, örtük bir Euler adımı , bu tür kısıtlamaların uygulanmadığı (ve dolayısıyla görüntü işlemede çok popüler hale gelen) proksimal nokta yöntemine karşılık gelir .f
Benzer bir şekilde, bu yöntemler ekstrapolasyon adımları ile önemli ölçüde hızlandırılabilir. Bunları motive etmenin bir yolu, standart birinci dereceden yöntemlerin en aza indirgeyicilere yakın birçok küçük adım atmak zorunda kaldığını gözlemlemektir, çünkü gradyan yönleri "salınır" (konjüge gradyanların en dik inişten daha iyi performans göstermesinin standart örneğini düşünün). Bunu düzeltmek için, birinci dereceden bir dinamik sistemi değil, ikinci bir dereceli sistemi çözerek yinelemeyi " :
uygun şekilde seçilmiş . Doğru takdir yetkisi ile, bu formun
tekrarlanmasına ( Polyak'ın ağır top yöntemi olarak bilinir) yol açar
bir1x¨( t ) + a2x˙( t ) = - ∇ f( x ( t ) )
bir1, bir2xk + 1= xk- γk∇f( xk) + αk( xk- xk - 1)
( göre ). Proksimal nokta yöntemleri için de benzer fikirler mevcuttur, bakınız, örneğin, Dirk Lorenz ve Thomas Pock'un http://arxiv.org/pdf/1403.3522.pdf makalesi .γk, αkbir1, bir2
(Bunu bence eklemeliyim ki, çoğu durumda dinamik bir sistem olarak yorumlama, algoritmanın türetilmesi veya yakınsama kanıtı için kesinlikle gerekli değildi; biri "örtük - açık" veya Lie türevleri gibi fikirlerin dinamik sistemlerden veya gradyanlı iniş yöntemlerinden daha temeldir. Yine de, bir soruna bakmak için başka bir bakış açısına sahip olmak asla acıtmaz.)
DÜZENLEME: ODE yorumunun Nesterov'un ekstragradient yönteminin özelliklerini çıkarmak ve iyileştirmeler önermek için kullanıldığı ikinci bağlamdan mükemmel bir örnekle karşılaştım:
http://arxiv.org/pdf/1503.01243.pdf
(Bunun da olduğunu unutmayın) Jed Brown'un bir örneği, yazarların görünüşte Polyak'ın algoritmasından haberdar olmadan yukarıdaki 4. noktayı yeniden keşfetmeleri.)
DÜZENLEME 2: Ve bunu ne kadar sürebileceğinizin bir göstergesi olarak, http://arxiv.org/pdf/1509.03616v1.pdf sayfasının 5. sayfasına bakın .