Pde kısıtlı optimizasyon için bitişik yöntemin maliyetini anlama


11

Eşlenik tabanlı optimizasyon yönteminin bir PDE kısıtlı optimizasyon için nasıl çalıştığını anlamaya çalışıyorum. Özellikle, bitişik yöntemin tasarım değişkenlerinin sayısının büyük olduğu, ancak "denklemlerin sayısının az olduğu" problemler için neden daha verimli olduğunu anlamaya çalışıyorum.

Anladığım şey:

Aşağıdaki PDE kısıtlı optimizasyon sorununu göz önünde bulundurun:

minβ I(β,u(β))s.t.R(u(β))=0

burada , bir vektör tasarımı değişkenlerin bir (yeterince sürekli) amaç fonksiyonu ve saha değişken bilinmeyen bir vektör tasarım değişkenlerine bağlıdır ve PDE kalıntı şeklidir.Iβu(β)R(u)

Açıkçası, I ve R'nin ilk varyasyonlarını şu şekilde yapabiliriz:

δI=Iβδβ+Iuδu

δR=Rβδβ+Ruδu=0

Bir lagrange çarpanları vektörü tanıtıldığında , nesnel işlevdeki varyasyon şöyle yazılabilirλ

δI=Iβδβ+Iuδu+λT[Rβδβ+Ruδu]

Şartları yeniden düzenleyerek şunları yazabiliriz:

δI=[Iβ+λTRβ]δβ+[Iu+λTRu]δu

Biz çözmek mümkün olup olmadığını Böylece bu şekildeIλ

Iu+λTRu=0 (adjoint equation)

Ardından değerlendirilir sadece tasarım değişkenleri açısından .βδI=[Iβ+λTRβ]δββ

Böylece, bir bitişik tabanlı optimizasyon algoritması aşağıdaki adımlar üzerinde dönecektir:

  1. Mevcut tasarım değişkenleri verildiβ
  2. Alan değişkenleri (PDE'den) için çözmeu
  3. Lagrange çarpanları (bitişik denklemden) için çözünλ
  4. Degradeleri hesaplaIβ
  5. Tasarım değişkenlerini güncellemeβ

Benim sorum

Bu bitişik 'hile' tasarım değişkenlerinin sayısının fazla olması durumunda yineleme başına optimizasyon maliyetini nasıl artırır? Bitişik yöntem için gradyan değerlendirme maliyetinin tasarım değişkenlerinin sayısından 'bağımsız' olduğunu duydum. Fakat bu tam olarak nasıl doğrudur?

Eminim bir şekilde göz ardı ettiğim çok açık bir şey var.


3
Bu arada, Lagrange çarpanı genellikle varyasyona değil, objektif işlevselliğe eklenir; böylece . Kapsamında türev ayarlama sıfır verim eşlenik denklem ve bu ekleyerek (ve çözelti durum denklemi ) göre türev halinde gradyanı elde edilir. PDE'nin zayıf formülasyonu ile başlarsanız, işler daha da basitleşir: Sadece Lagrange çarpanını test fonksiyonu yerine yerleştirin. Hiçbir yerde güçlü forma veya kısmi entegrasyona gerek yoktur. u u R ( u , β ) = 0 βminu,βmaxλI(u,β)+λTR(u,β)uuR(u,β)=0β
Christian Clason

1
Herhangi bir simülasyonun en pahalı kısmı çözme aşamasıdır. Bitişik kullanarak, gradyanı en az n + 1 çözüme ihtiyacınız olan sonlu farklılıklara kıyasla çok daha ucuz olan iki çözüme sahip olursunuz, n modelinizdeki serbest parametrelerin sayısıdır.
stali

Yanıtlar:


10

Bu bitişik 'hile' tasarım değişkenlerinin sayısının fazla olması durumunda yineleme başına optimizasyon maliyetini nasıl artırır?

Maliyeti doğrusal bir cebir perspektifinden düşünüyorum. ( Lagrange çarpanı yaklaşımından daha sezgisel bulduğum Stephen G. Johnson'ın bu notlarına bakın ). İleriye dönük yaklaşım, duyarlılıkların doğrudan çözülmesini gerektirir:

uβ=(Ru)1Rβ

bu, vektöründeki her parametre için doğrusal bir sistemin çözülmesini ve ardındanβ

dIdβ=Iβ+Iuuβ,

burada toplam bir türevi ve kısmi bir türevi belirtir.d

Bitişik yaklaşım,

dIdβ=IβIu(Ru)1Rβ,

eş değişken böylece (Lagrange çarpanı) ile tanımlanabilirλ

Iu(Ru)1=λT,

bitişik denkleme karşılık gelen

Iu+λTRu=0.

Bu terimlerin yeniden gruplandırılması, her parametre için doğrusal bir çözüm yerine yalnızca bir doğrusal çözüm gerektirir, bu da bitişik değerlendirmeyi birçok parametre durumu için ucuz hale getirir.

Bitişik yöntem için gradyan değerlendirme maliyetinin tasarım değişkenlerinin sayısından 'bağımsız' olduğunu duydum. Fakat bu tam olarak nasıl doğrudur?

Tamamen bağımsız değil; tahminen ve değerlendirme maliyeti parametre sayısı ile artacaktır. Bununla birlikte, doğrusal çözümler, boyutu değişmediği sürece yine de aynı boyutta olacaktır . Varsayım, çözücülerin işlev değerlendirmelerinden çok daha pahalı olduğu yönündedir.( R /β ) u(I/β)(R/β)u


8

Özetle, avantajı hesaplamak azaltılmış objektif türevlerine olmasından kaynaklanır , gerçekten türev bilmek gerekmez göre ayrı bir nesne olarak, ancak yalnızca varyasyonlarına yol açan kısmı .u ( β ) βI(β,u(β))u(β)βI(β,u(β))

: Bana biraz daha rahat birlikte olduğum bir gösterim geçiş Let ( olmak tasarım değişkeni, durum değişkeni ve ise amaçtır). Let mesela böylece kapalı fonksiyon teoremini uygulamak yeterince iyi olduğu denklemi olan bir tek çözüm ile ilgili olarak sürekli olarak ayırt edilebilirdir ve türev çözeltisi ile verilmektedir ( ve kısmi türevleri olmak üzere) .

miny,uJ(y,u)subject toe(y,u)=0
uyJe(y,u)e(y,u)=0y(u)uy(u)
(1)ey(y(u),u)y(u)+eu(y(u),u)=0
eyeu

Bu , farklılaştırılabilen ( ise) indirgenmiş tanımlayabileceğiniz anlamına gelir . Gradyan yu karakterize etmenin bir yolu, yönlü türevler (örneğin, tüm kısmi türevleri tasarım alanının temeline göre hesaplamak). Burada, yönündeki yönlü türev , zincir kuralı tarafından Eğer güzel bir bilgi işlem için sadece zor bir şey olan verilen için . Bu, ile çarpılarak yapılabilirj(u):=J(y(u),u)J(y,u)j(u)h

(2)j(u;h)=Jy(y(u),u),y(u)h+Ju(y(u),u),h.
Jy(u)hh(1)hsağdan ve (örtük fonksiyon teoreminin izin verdiği) için çözme , yani, ve bu ifadeyi takarak . PDE kısıtlı optimizasyonda, bu , tasarım alanının her temel vektörü için doğrusallaştırılmış bir PDE'nin çözülmesine karşılık gelir .y(u)h
(3)[y(u)h]=ey(y(u),u)1[eu(y(u),u)h]
(2) h

Biz, bir operatörün bulmak Ancak, böyle bu arzu edilen gradyanı olmalıdır. Bakıldığında , yazabiliriz ( adjoint operatörü olarak), bu nedenle hesaplamamız gereken tek şey . Bunu kullanarak, , yani ve PDE kısıtlı optimizasyondaj

j(u;h)=j,hfor all h,
(1)
Jy(y(u),u),y(u)h=y(u)Jy(y(u),u),h
y(u)y(u)jy(y(u),u)(AB)=BA(3)
λ:=ey(y(u),u)Jy(y(u),u)
J y (
j(u)=eu(y(u),u)λ+Ju(y(u),u).
λ uJy(y(u),u)genellikle bir tür artıktır ve computing , tasarım alanının boyutundan bağımsız olarak tek bir (doğrusal) bitişik PDE'nin çözülmesini içerir . (Aslında, bu dağıtılmış parametreler için bile çalışır, yani , ilk yaklaşımın mümkün olmadığı bazı sonsuz boyutlu Banach uzayında bir işlevse.)λu
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.