satır arama ve güven bölgesi algoritmaları için ölçek değişmezliği

Nocedal & Wright'ın Sayısal Optimizasyon kitabında, bölüm 2.2 (sayfa 27), "Genel olarak konuşursak, çizgi arama algoritmaları için ölçek değişmezliğini güven bölgesi algoritmalarına göre korumak daha kolaydır" bölümünde bir ifade vardır. Aynı bölümde, orijinal değişkenlerin ölçeklendirilmiş sürümleri olan ve hem arama hem de güven bölgesi için yardımcı olabilecek yeni değişkenlere sahip olmaktan bahsediyorlar. Başka bir yaklaşım ön koşullamadır. Güven bölgesi yöntemleri için ön koşullandırma, eliptik güven bölgelerine sahip olmakla eşdeğerdir ve bu nedenle ölçek değişmezliği sağlar. Ancak, benzer bir sezgi satır araması için ön koşullandırma için açık değildir. Çizgi arama, ölçek değişmezliği için hangi şekillerde daha uygundur? Bazı pratik hususlar var mı?

Ayrıca, güven bölgesi yöntemleri için ön koşullandırma ile ilgili bir sorum var. Oldukça kötü koşullandırılmış bir sorun için, iyi bir ön koşullayıcı dış Newton yinelemelerinin ve iç CG yinelemelerinin sayısını mı yoksa sadece ikincisini mi azaltacaktır? Güven bölgesi orijinal alanda elipsoidal olduğundan, iyi bir ön koşullayıcı, manzaraya daha iyi uyacak bir elipsoide yol açmalıdır. Bunun algoritmayı daha iyi talimatlar almaya zorlayarak dış Newton yinelemelerinin sayısını azaltabileceğini hissediyorum. Bu doğru mu?

linear-algebra optimization numerical-analysis

— haripkannan
kaynak

Satır aramanın ve güven bölgesi yöntemlerinin ölçeklendirmeyi nasıl ele aldıkları arasında bir fark olabileceğini düşünüyorum, ancak ölçeklemenin farkında olduğumuz sürece uygulamada gerçekten etkili olduğunu görmüyorum. Ve net olmak gerekirse, Nocedal ve Wright kitabı afin ölçeklendirmeden bahsediyordu. Doğrusal olmayan ölçeklendirme nicelemek için biraz daha zordur.

$f:X\rightarrow \mathbb{R}$ $A\in\mathscr{L}(X)$ $J:X\rightarrow \mathbb{R}$

\begin{aligned} J (x) = & f (A x) \\ \nabla J (x) = & A \nabla f (A x) \\ \nabla^{2} J (x) = & A \nabla^{2} f (A x) A \end{aligned}

$\begin{align*} J(x) =& f(Ax)\\ \nabla J(x) =& A\nabla f(Ax)\\ \nabla^2 J(x) =& A\nabla^2 f(Ax) A \end{align*}$

A

$A$

\nabla^{2} J (x) δ x = - \nabla J (x)

$\nabla^2 J(x) \delta x = -\nabla J(x)$

A \nabla^{2} f (A x) A δ x = - A \nabla f (A x)

$A\nabla^2 f(Ax) A \delta x = -A\nabla f(Ax)$

A δ x = - \nabla^{2} f (A x)^{- 1} \nabla f (A x)

$A \delta x = -\nabla^2 f(Ax)^{-1} \nabla f(Ax)$

H δ x = - \nabla J (x)

$H \delta x = -\nabla J(x)$

H

$H$

H δ x = - A \nabla f (A x)

$H \delta x = -A \nabla f(Ax)$

A

$A$

H

$H$

$\phi$

δ x = ϕ (- A \nabla f (A x))

$\delta x = \phi(-A\nabla f(Ax))$

ϕ

$\phi$

ϕ

$\phi$

ϕ

$\phi$

A

$A$

\nabla^{2} J (x) δ x = - \nabla J (x)

$\nabla^2 J(x) \delta x = -\nabla J(x)$ CG kullanma. Bu, tam olarak güven bölgesi ayarında Steihaug-Toint (Nocedal ve Wright'ta s. 171) veya satır araması için Newton-CG'yi kullanır (Nocedal ve Wright'ta s. 169). Aynı şekilde oldukça yakın çalışırlar ve afin ölçeklendirmeyi umursamazlar. Ayrıca Hessian'ın depolanmasını gerektirmezler, sadece Hessian-vektör ürünleri gereklidir. Gerçekten, bu algoritmalar çoğu problem için işgücü olmalı ve afin ölçeklendirmeyi umursamıyorlar.

Güven bölgesi sorununun önkoşulu olarak, apriori'ye genel optimizasyon yinelemelerinin sayısını geliştirip geliştirmeyeceğinizi söylemenin kolay bir yolu olduğunu düşünmüyorum. Gerçekten, günün sonunda, optimizasyon yöntemleri iki modda çalışır. Birinci modda, Newton'un yöntem yakınsama yarıçapından çok uzaktayız, bu nedenle küreselleşir ve yinelemeleri, hedefin düşmesini sağlamak için zorlarız. Güven bölgesi bir yoludur. Hat arama başka bir şeydir. İkinci modda, Newton'un yöntem yakınsama yarıçapındayız, bu yüzden onunla uğraşmamaya çalışıyoruz ve Newton'un yönteminin işini yapmasına izin veriyoruz. Aslında bunu, güven bölgesi yöntemleri gibi şeylerin yakınsama kanıtlarında görebiliriz. Örneğin, Teorem 4.9'a bakınız (Nocedal ve Wright'ta s.93). Çok açık bir şekilde, güven bölgesinin nasıl etkisiz hale geldiğini belirtirler. Bu bağlamda, ön koşullandırıcının faydası nedir? Kuşkusuz, Newton'un yöntem yakınsama yarıçapındayken çok daha az iş yaparız ve CG yineleme sayısı azalır. Bu yarıçapın dışında olduğumuzda ne olur? Bu biraz değişiyor. Tam Newton adımını hesaplarsak, faydası daha az iş yapmamızdır. Kesilmiş CG'den kesilme nedeniyle adımımızı erken kesersek, yönümüz Krylov alt alanında olacak

{- P \nabla J (x), - (P H) (P \nabla J (x)), \dots, - (P H)^{k} (P \nabla J (x))}

$\{-P\nabla J(x),-(PH)(P\nabla J(x)),\dots,-(PH)^k(P\nabla J(x))\}$

P

$P$

H

$H$

{- \nabla J (x), - (H) (\nabla J (x)), \dots, - (H)^{k} (\nabla J (x))} ?

$\{-\nabla J(x),-(H)(\nabla J(x)),\dots,-(H)^k(\nabla J(x))\}?$

Bu, iyi bir önkoşul tanımlamanın değeri olmadığı anlamına gelmez. Ancak, nasıl birisi Newton yöntemi yakınsama yarıçapı uzakta noktaları için optimizasyon yardımcı bir önkoşul tanımladığından emin değilim. Tipik olarak, somut, ölçülebilir bir hedef olan Hessian yaklaşımının özdeğerlerini kümelemek için bir ön koşul tasarlıyoruz.

TLDR; Pratik olarak, bir satır arama yönteminin bir güven bölgesi yönteminden daha fazla bir yineleme oluşturması için çok çeşitli yollar vardır, bu nedenle afin ölçeklendirmeyi işlemek için inanılmaz bir yol olabilir. Bununla birlikte, sadece yanlış bir Newton yöntemi kullanın ve önemli değil. Bir önkoşul, bir algoritmanın Newton'un yöntem yakınsama yarıçapından uzak performansını etkiler, ancak nasıl olduğunu ölçmek zordur, bu yüzden Hessiasn yaklaşımının öz değerlerini kümelemek için bir önkoşul tasarlayın.

— wyer33
kaynak