Bazı optimizasyon problemlerinin zaman adımlamasına eşdeğer olduğu iyi biliniyor mu?


19

İstenen bir durum y0 ve bir düzenleme parametresi βR, verildiğinde, bir fonksiyonel durumu en aza indirmek için bir durum y ve bir kontrol bulma problemini düşünün 1u

12y-y02+β2u2
kısıtlama tabi
biry=u.
basitlik içiny,y0,uR,nve\ mathbb R ^ {n \ times n} 'de düşünebilirizbirR,nxn.

, Lagrange Şekillendirme sabit noktaları arayan ve kontrolü elimine u ilk dereceden koşulları elde

birTλ=y0-ybiry=1βλ
tarafından Premultiplying bir eşitlikte ve birT saniye içinde, normal denklemler yazabilir
(ben+βbirbirT)λ=βbiry0(ben+βbirTbir)y=y0
Bunları diferansiyel denklemlere geriye doğru Euler yaklaşımlarının tek adımı olarak yorumlayabiliriz
λb=-birbirTλ+biry0,λ(0)=0yb=-birTbiry,y(0)=y0
pseudotimestep β .

Sorum: Bu bağlantı iyi biliniyor mu? Zaman testi veya optimizasyonun standart tedavilerinde tartışılıyor mu? (Bana göre, aralarında bir tür sezgisel bağlantı sağlıyor gibi görünüyor.)

Fikir, iyi bilinmesi gerektiği kadar basit görünüyor, ancak ne literatürü araştırmak ne de insanlarla konuşmak bana bunun tartışıldığı yerde iyi bir kaynak vermedi. Bulduğum en yakın, O. Scherzer ve J. Weichert (J. Math Imaging Vision 12 (2000) s. 43-63) tarafından özetin (!) İlk cümlesindeki bağlantıyı bildiren ancak! herhangi bir referans sağlayın veya bağlantıyı derinlemesine keşfedin.

İdeal olarak sadece bağlantıyı belirtmekle kalmayıp aynı zamanda bazı sonuçları da araştıran bir referans arıyorum (örneğin, ucuz bir ileri Euler adımı ile bir optimizasyon problemi önkoşullamayı hayal edebiliyordum).


1
Genel olarak (ve muhtemelen zaten bildiğiniz gibi), sözde zaman adımlama yaklaşımları, problemi bir ODE kümesinin kararlı durumunu bulmak gibi yaparak, cebirsel denklemleri (tarif ettiğiniz KKT sistemi gibi) çözmek için iyi bilinen yöntemlerdir. zaman değişkeni gerçekten sahte bir zamandır. Ancak, KKT koşullarının belirli bir örneğini tek bir geriye doğru Euler adımıyla ilişkilendiren herhangi bir özel bağlantının farkında değilim.
Geoff Oxberry

Bir kenara, sadece çözmek için gereken bir Eğer örneğin bilgi işlem, birinci dereceden gerekli koşulların birini kullanabilir, çünkü iki ADDlerin dan . λyλ
Christian Clason

Yanıtlar:


17

Jed Brown'un belirttiği gibi, doğrusal olmayan optimizasyondaki gradyan inişi ile dinamik sistemlerin zaman adımlaması arasındaki bağlantı bazı frekanslarla yeniden keşfedilir (anlaşılabilir bir şekilde, çünkü görünüşte farklı iki alanı birbirine bağladığı için matematiksel zihne çok tatmin edici bir bağlantıdır). Ancak, özellikle tarif ettiğiniz bağlamda nadiren yararlı bir bağlantı olduğu ortaya çıkar .

Ters problemler, insanlar (kötü poz) operatörü denklemi çözerek ilgilenen edilir ile değil aralığında . (Optimal kontrol probleminiz ve ile bunun bir örneği olarak görülebilir .) Birkaç düzenleme stratejisi (Tikhonov veya Landweber gibi) tek bir sözde zaman olarak yorumlanabilir belirli bir sınıfın adımı. Buradaki fikir, parametre için bazı (uyarlanabilir, bir posteriori) seçim kuralları elde etmek için normalleştirme parametresinin yorumlanmasını bir adım uzunluğu olarak kullanmaktır - ters problemlerde temel bir sorun - ve muhtemelen birden fazla sahte zaman adımı yapmak gerçek, düzenli olmayan çözüme yaklaşın (y δ F F = A - 1 y δ = y 0F(u)=yδyδFF=bir-1yδ=y0sayısal devam ). Buna bazen sürekli düzenlileştirme denir ve genellikle seviye belirleme yöntemleri bağlamında tartışılır; bakınız, örneğin, Kaltenbacher, Scherzer, Neubauer Bölüm 6.1: Doğrusal Olmayan Hastalıklı Sorunlar İçin İteratif Düzenleme Yöntemleri (de Gruyter, 2008).

Bu fikrin tekrar tekrar ortaya ikinci bir bağlam doğrusal olmayan optimizasyon: için degrade iniş adımına bakarsanız , bunu dinamik sistem için ileri Euler adımı olarak yorumlayabilirsiniz Jed Brown belirttiği gibi, sözde zamanı basamaklar sağlanan bu yöntem yakınsak, bu ilk bakışta verim sadece çok şaşırtıcı değil gözlem küçük yeterlidir. Eğer dinamik sistem bakıp kendinize sorduğunuzda ilginç kısım geliyor hangi özellikleri sürekli çözüm olarak adlandırılan bir gradyan akışıx k + 1 = x k - γ kf ( x k ) , ˙ x ( t ) = - f ( x ( t ) ) ,minxf(x)

xk+1=xk-γkf(xk),
γ k x ( t )
x˙(t)=-f(x(t)),x(0)=x0.
γkx(t)eğim inişinden bağımsız olarak (veya olması gerekir) ve bunun standart Euler'den daha uygun zaman adımlama (ve dolayısıyla optimizasyon) yöntemlerine yol açıp açmayacağı. Kafamın üstünden bazı örnekler:
  1. Degrade akışının yaşadığı doğal bir işlev alanı var mı? Eğer öyleyse, gradyan adımınız aynı alandan atılmalıdır (yani, ayrıklaştırma uygun olmalıdır). Bu, örneğin, farklı iç ürünlere (bazen Sobolev gradyanları olarak da adlandırılır ) göre gradyanın Riesz temsillerini hesaplamaya ve pratikte çok daha hızlı yakınlaşan ön koşullu yinelemelere yol açar.

  2. Belki bir vektör uzayına değil, bir manifolda (örn., Simetrik pozitif belirli matrisler) ait olmalıdır veya gradyan akışı belirli bir normunu korumalıdır . Bu durumda, yapıyı koruyan zaman atlama şemaları uygulamaya çalışabilirsiniz (örn., Uygun bir Lie grubuna veya geometrik bir entegratöre göre geri çekme içerir).xxx

  3. Eğer türevlenebilir değil ama dışbükey nedeniyle adım büyüklüğü kısıtlamalar oldukça yavaş bir subgradient iniş yöntemi ileri Euler adım denk gelmektedir. Öte yandan, örtük bir Euler adımı , bu tür kısıtlamaların uygulanmadığı (ve dolayısıyla görüntü işlemede çok popüler hale gelen) proksimal nokta yöntemine karşılık gelir .f

  4. Benzer bir şekilde, bu yöntemler ekstrapolasyon adımları ile önemli ölçüde hızlandırılabilir. Bunları motive etmenin bir yolu, standart birinci dereceden yöntemlerin en aza indirgeyicilere yakın birçok küçük adım atmak zorunda kaldığını gözlemlemektir, çünkü gradyan yönleri "salınır" (konjüge gradyanların en dik inişten daha iyi performans göstermesinin standart örneğini düşünün). Bunu düzeltmek için, birinci dereceden bir dinamik sistemi değil, ikinci bir dereceli sistemi çözerek yinelemeyi " : uygun şekilde seçilmiş . Doğru takdir yetkisi ile, bu formun tekrarlanmasına ( Polyak'ın ağır top yöntemi olarak bilinir) yol açar

    bir1x¨(t)+bir2x˙(t)=-f(x(t))
    bir1,bir2
    xk+1=xk-γkf(xk)+αk(xk-xk-1)
    ( göre ). Proksimal nokta yöntemleri için de benzer fikirler mevcuttur, bakınız, örneğin, Dirk Lorenz ve Thomas Pock'un http://arxiv.org/pdf/1403.3522.pdf makalesi .γk,αkbir1,bir2

(Bunu bence eklemeliyim ki, çoğu durumda dinamik bir sistem olarak yorumlama, algoritmanın türetilmesi veya yakınsama kanıtı için kesinlikle gerekli değildi; biri "örtük - açık" veya Lie türevleri gibi fikirlerin dinamik sistemlerden veya gradyanlı iniş yöntemlerinden daha temeldir. Yine de, bir soruna bakmak için başka bir bakış açısına sahip olmak asla acıtmaz.)


DÜZENLEME: ODE yorumunun Nesterov'un ekstragradient yönteminin özelliklerini çıkarmak ve iyileştirmeler önermek için kullanıldığı ikinci bağlamdan mükemmel bir örnekle karşılaştım: http://arxiv.org/pdf/1503.01243.pdf (Bunun da olduğunu unutmayın) Jed Brown'un bir örneği, yazarların görünüşte Polyak'ın algoritmasından haberdar olmadan yukarıdaki 4. noktayı yeniden keşfetmeleri.)

DÜZENLEME 2: Ve bunu ne kadar sürebileceğinizin bir göstergesi olarak, http://arxiv.org/pdf/1509.03616v1.pdf sayfasının 5. sayfasına bakın .


Bu cevabı kabul ediyorum çünkü ikinci paragraf sormaya çalıştığım soruyu en doğrudan cevaplıyor, ama Jed Brown'un cevabını da beğendim.
Andrew T. Barker

13

Burada yazdığınız tam formülasyonu görmemiş olsam da, insanların geçici bir sistemi entegre etmek için bir bağlantıyı "yeniden keşfettikleri" görüşmeleri görmeye devam ediyorum ve cebirsel olarak eşdeğer bir algoritmayı bir forma yazmaya devam ediyorum veya başka bir mevcut degrade iniş veya Newton benzeri bir yöntemdir ve başkalarından alıntı yapamaz. Çok yararlı olmadığını düşünüyorum çünkü sonuç "yeterince küçük adımlar attığınız sürece, yöntem sonunda yerel bir minimuma yakınsa" şeklindedir. 2014, Philip Wolfe'nin makalesinin bunu nasıl ilkeli bir şekilde yapacağını gösteren 45. yıldönümüdür. Ayrıca psödotransient devamdan ve Levenberg-Marquardt gibi ilgili yöntemlerden q-kuadratik veya q-superlinear yakınsama elde etmek için iyi bir teori vardır.

600'den fazla makaleye sahip bir matematikçiden cebirsel denklemleri çözmek için Newton benzeri bir formül (yani, klasik yalancı süreklilik) kullanarak bu yeniden keşfin bir örneğini istiyorsanız (belki de ilginç bulduğunuz şeyleri kanıtlar) Dinamik Sistemler Yöntemi "AG Ramm [1].

Geçici bir sistem düşünerek elde edilen sezgi daha hızlı veya daha güvenilir olan pratik algoritmalara yol açtıysa, bence bu konuda çok atıfta bulunulan makaleler göreceğiz. Ramm'in kitabında yaklaşık 80 (çoğunlukla kendi kendine atıflar) bulunurken Nocedal ve Wright'ın 13000'den fazla alıntıya sahip olması bir sır değil.

[1] Prof. Ramm'ı DSM'sinin on yıllardır sayısız mühendislik paketinde bulunan cebirsel olarak eşdeğer olduğunu bildirmemenizi tavsiye edebilirim, ya da kendinizi odadan bağırdırabilirsiniz. #gradstudentmemories


3
Ona şimdi söylediğini görmek daha ilginç olabilir, Jed!
Bill Barth

0

ODE yöntemleri optimizasyona katkıda bulunabilirse bunu göstermek için gerçekten basit bir örnek problem var mı?
Hasır bir adam: veya da makul bir iş yapan bir ODE çözücüsü var mı? Christian Clason anlaşılacağı gibi için demek 2d veya 10d'de Rosenbrock fonksiyonu,? Bu aptalca, daha iyi bir saman adam var mı? (Not "makul", "son teknoloji optimize ediciler ile rekabet değil". Biri azalan adım boyutları / toleransı ve belki de sert bir çözücü gerekir hayal.)
x˙=-f(x)
x¨=βx˙-αf(x)  
f

Pratikte, "çok büyük" adımlar "çok küçük" den çok daha problemlidir - salınımlar dağınıktır.
Safça kontrol teorisinin yardımcı olabileceğini düşünürdüm. Sayısal Tarifler s. 915,
ODE'ler için PI uyarlamalı kademeli kontrolü açıklar , ancak bunun pratikte kullanılıp kullanılmadığını bilmiyorum.


Görünüşe göre cevap olarak yeni bir soru gönderiyorsunuz ... Teğetsel olarak ilgili sorular, verilen sorulara ayrı sorular veya yorumlar halinde gönderilmelidir.
Paul

@ Paul, bu hiç mantıklı mı? Öyleyse, yeni bir soru için bir başlık önerebilir misiniz?
denis

Kafam karıştı ... Yanlış olabilirdim, ama cevabın gerçekten OP'nin sorusu değil gibi görünüyor. İletmeye çalıştığınız mesaj tam olarak nedir ve orijinal soru ile nasıl ilişkilidir?
Paul

@ Paul, üzgünüm net değilim. Anladığım kadarıyla soru, belirli bir optimizasyon problemi ve ODE çözenleri olarak zaman adımlaması arasında bir ilişki ister. Christian Clason, gradyan inişi ile belirli bir ODE çözücüsü (ileri Euler) arasındaki doğrudan ilişkiye dikkat çekiyor. Ben yorum, en az f () doğru hareket eden bir ODE çözücü gösteren basit bir test fonksiyonu f () nedir?
denis
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.