Matris Entropisinde Kısıtlı Optimizasyon Sorunu

(Shannon) matris entropi kısıtlı bir optimizasyon problemim var . Matris değerde toplamı olarak yazılabilir form 1 matrisler burada belirli bir normalize edilmiş vektördür. Rütbe bir matrisin katsayıları, optimize ettiğimiz bilinmeyenlerdir ve bunların sıfırdan büyük olması ve 1'e kadar toplamları gerekir. $\mathtt{(sum(entr(eig(A))))}$ $A$ $[v_i\,v_i^T]$ $v_i$

CVX benzeri bir sözdiziminde sorun şu şekildedir: verilen değişken $\mathtt{c(n)}$

küçültmek s u m (e n t r (e ben g (bir)))

$\text{minimize} \qquad \mathtt{sum(entr(eig(A)))}$

\begin{aligned} tabi bir & = Σ c_{ben} v_{ben} v_{ben}^{T} \\ Σ c_{ben} & = 1 \\ c_{ben} & \geq 0 \end{aligned}

$\begin{align} \text{subject to} \qquad A &= \sum c_i v_i v_i^T\\ \sum c_i &= 1\\ c_i &\ge 0\end{align}$ .

Bunun nasıl verimli bir şekilde çözüleceği hakkında bir fikri var mı? Muhtemelen yarı tanımlı bir programlama (SDP) problemi olarak kullanılamayacağını biliyorum.

optimization entropy

— Dries
kaynak

Düzenleme: Bir meslektaşım bana aşağıdaki yöntem benim entropi fonksiyonu için uzmanlaşmış aşağıdaki makalede genel yöntemin bir örneği olduğunu,

Overton, Michael L. ve Robert S. Womersley. "Simetrik matrislerin özdeğerlerini optimize etmek için ikinci türevler." SIAM Matris Analizi ve Uygulamaları Dergisi 16.3 (1995): 697-718. http://ftp.cs.nyu.edu/cs/faculty/overton/papers/pdffiles/eighess.pdf

genel bakış

Bu yazıda optimizasyon sorununun iyi bir şekilde ortaya konduğunu ve eşitsizlik kısıtlamalarının çözümde etkin olmadığını, daha sonra entropi fonksiyonunun birinci ve ikinci Frechet türevlerini hesapladığını, daha sonra ortadan kaldırılan eşitlik kısıtlamasıyla Newton'un yöntemini önerdim. Son olarak Matlab kodu ve sayısal sonuçlar sunulur.

Optimizasyon probleminin iyi pozlanması

İlk olarak, pozitif belirli matrislerin toplamı pozitif , bu nedenle , - sıralaması matrislerinin toplamı pozitif . Set halinde tam rütbe, sonra özdeğer özdeğerlerinin logaritma alınabilir, böylece olumludur. Böylece, objektif fonksiyon uygulanabilir kümenin iç kısmında iyi tanımlanmıştır. $c_i > 0$

bir (c) : = Σ_{ben = 1}^{N-} c_{ben} v_{ben} v_{ben}^{T}

$A(c):=\sum_{i=1}^N c_i v_i v_i^T$

v_{i}

$v_i$

A

$A$

Herhangi olarak İkincisi, , rütbe kaybeder en küçük özdeğer böylece sıfıra gider. Yani, , . türevi olarak patladığı için , uygulanabilir kümenin sınırına yaklaşan sıralı olarak daha iyi ve daha iyi noktalar dizisi olamaz. Dolayısıyla problem iyi tanımlanmıştır ve ayrıca eşitsizlik kısıtlamaları aktif değildir. $c_i \rightarrow 0$ $A$ $A$ $\sigma_{min}(A(c)) \rightarrow 0$ $c_i \rightarrow 0$ $-\sigma \log(\sigma)$ $\sigma \rightarrow 0$ $c_i \ge 0$

Entropi fonksiyonunun frechet türevleri

Uygulanabilir bölgenin iç kısmında entropi fonksiyonu her yerde Frechet ile ayırt edilebilir ve özdeğerlerin tekrarlanmadığı her yerde iki kez Frechet ayırt edilebilir. Newton'un yöntemini yapmak için, matrisin özdeğerlerine bağlı olan matris entropisinin türevlerini hesaplamamız gerekir. Bu, bir matrisin özdeğer ayrışmasının matristeki değişikliklere göre duyarlılıklarının hesaplanmasını gerektirir.

Özdeğer ayrışması olan bir matris için , orijinal matristeki değişikliklere göre özdeğer matrisinin türevinin ve özvektörler matrisin türevi, olan Hadamard ürün katsayısı matrisi ile, $A$ $A = U \Lambda U^T$

d Λ = ben \circ (U^{T} d bir U),

$d\Lambda = I \circ (U^T dA U),$

d U = U C (d bir),

$dU = UC(dA),$

\circ

$\circ$

C = {\begin{cases} \frac{u_{ben}^{T} d bir u_{j}}{λ_{j} - λ_{ben}}, & ben = j \\ 0, & ben = j \end{cases}

$C = \begin{cases} \frac{u_i^T dA u_j}{\lambda_j - \lambda_i}, & i=j \\ 0, &i=j \end{cases}$

Bu tür formüller, özdeğer denklemini farklılaştırarak türetilir ve formüller, özdeğerler farklı olduğunda tutunur. Tekrarlanan özdeğerler olduğunda, formülü , özdeş olmayan özvektörler dikkatle seçildiği sürece uzatılabilen çıkarılabilir bir süreksizliğe sahiptir. Bununla ilgili ayrıntılar için aşağıdaki sunuma ve makaleye bakın . $AU=\Lambda U$ $d\Lambda$

İkinci türev daha sonra tekrar farklılaştırılarak bulunur,

\begin{aligned} d^{2} Λ & = d (ben \circ (U^{T} d {bir}_{1} U)) \\ = ben \circ (d U_{2}^{T} d {bir}_{1} U + U^{T} d {bir}_{1} d U_{2}) \\ = 2 ben \circ (d U_{2}^{T} d {bir}_{1} U) . \end{aligned}

$\begin{align} d^2 \Lambda &= d(I \circ (U^T dA_1U)) \\ &= I \circ (dU_2^T dA_1 U + U^T dA_1 dU_2) \\ &= 2 I \circ (dU_2^T dA_1 U). \end{align}$

Özdeğer matris birinci türevi tekrar özdeğerler sürekli yapılabilir olmakla birlikte, ikinci türev olamaz çünkü bağlıdır bağlıdır, özdeğerler birbirine doğru dejenere olarak patlar. Bununla birlikte, gerçek çözüm tekrarlanan özdeğerlere sahip olmadığı sürece, sorun olmaz. Sayısal deneyler , bu noktada bir kanıtım olmamasına rağmen, bu genel için geçerli olduğunu düşündürmektedir . Bunu anlamak gerçekten önemlidir, çünkü entropiyi maksimuma çıkarmak genellikle özdeğerleri mümkünse birbirine yaklaştırmaya çalışır. $d^2 \Lambda$ $dU_2$ $C$ $v_i$

Eşitlik kısıtlamasını ortadan kaldırmak

kısıtlamasını yalnızca ilk katsayıları üzerinde çalışarak ve ayarlayarak ortadan $\sum_{i=1}^N c_i = 1$ $N-1$

c_{N-} = 1 - Σ_{ben = 1}^{N- - 1} c_{ben} .

$c_N = 1-\sum_{i=1}^{N-1} c_i.$

Genel olarak, yaklaşık 4 sayfa matris hesaplamalarından sonra, ilk katsayılarındaki değişikliklere göre objektif fonksiyonun azaltılmış birinci ve ikinci türevleri , burada $N-1$

d f = d C_{1}^{T} M^{T} [ben \circ (V^{T} U B U^{T} V)]

$df = dC_1^T M^T [I \circ (V^T U B U^T V)]$

d d f = d C_{1}^{T} M^{T} [ben \circ (V^{T} [2 d U_{2} B_{bir} U^{T} + U B_{b} U^{T}] V)],

$ddf = dC_1^T M^T [I \circ (V^T[2dU_2 B_a U^T + U B_b U^T]V)],$

M = [\begin{matrix} 1 \\ 1 \\ ⋱ \\ 1 \\ - 1 & - 1 & ... & - 1 \end{matrix}],

$M = \begin{bmatrix} 1 & \\ & 1 & \\ &&\ddots& \\ &&&1\\ -1 & -1 & \dots & -1 \end{bmatrix},$

B_{bir} = d ben bir g (1 + günlük λ_{1}, 1 + günlük λ_{2}, ..., 1 + günlük λ_{N-}),

$B_a = \mathrm{diag}(1+\log \lambda_1, 1 + \log \lambda_2, \ldots, 1 + \log \lambda_N),$

B_{b} = d ben bir g (\frac{d_{2} λ_{1}}{λ_{1}}, ..., \frac{d_{2} λ_{N-}}{λ_{N-}}) .

$B_b = \mathrm{diag}(\frac{d_2\lambda_1}{\lambda_1},\ldots,\frac{d_2\lambda_N}{\lambda_N}).$

Kısıtlamayı ortadan kaldırdıktan sonra Newton yöntemi

Eşitsizlik kısıtlamaları etkin olmadığından, iç mekan maksimum değerine kuadratik yakınsama için sadece uygulanabilir kümede başlar ve güven bölgesi veya satır arama hatalı newton-CG çalıştırırız.

Yöntem aşağıdaki gibidir (güven bölgesi / satır arama ayrıntıları dahil değil)

başlayın . $\tilde{c} = [1/N,1/N,\ldots,1/N]$
Son katsayıyı oluşturun, . $c = [\tilde{c},1 - \sum_{i=1}^{N-1} c_i]$
Konstrukt . $A = \sum_i c_i v_i v_i^T$
Özvektörler ve Özdeğer ait . $U$ $\Lambda$ $A$
Degrade . $G = M^T [I \circ (V^T U B U^T V)]$
Çözün için konjugat gradyan ile (uygulamak için sadece yeteneği değil, gerçek girdileri gerektirir). vektörü uygulanır bularak , ve ve daha sonra, formül, takıp $H G = p$ $p$ $H$ $H$ $\delta \tilde{c}$ $dU_2$ $B_a$ $B_b$ $M^{T} [ben \circ (V^{T} [2 d U_{2} B_{bir} U^{T} + U B_{b} U^{T}] V)]$ $M^T [I \circ (V^T[2dU_2 B_a U^T + U B_b U^T]V)]$
Ayar . $\tilde{c} \leftarrow \tilde{c} - p$
Git 2.

Sonuçlar

Rasgele , steplength için linesearch ile yöntem çok hızlı bir şekilde yakınsar. Örneğin, (100 ) ile aşağıdaki sonuçlar tipiktir - yöntem kuadratik olarak yakınsar. $v_i$ $N=100$ $v_i$

>> N = 100;
>> V = randn (N, N);
>> k = 1 için: NV (:, k) = V (:, k) / norm (V (:, k)); son
>> maxEntropyMatrix (V);
Newton yinelemesi = 1, norm (grad f) = 0.67748
Newton yinelemesi = 2, norm (grad f) = 0.03644
Newton yinelemesi = 3, norm (grad f) = 0.0012167
Newton yinelemesi = 4, norm (grad f) = 1.3239e-06
Newton iterasyonu = 5, norm (grad f) = 7.7114e-13

Hesaplanan optimal noktanın aslında maksimum olduğunu görmek için, burada optimal nokta rastgele bozulduğunda entropinin nasıl değiştiğinin bir grafiği. Tüm düzensizlikler entropiyi azaltır. resim açıklamasını buraya girin

Matlab kodu

Entropiyi en aza indirmek için hepsi bir arada işlev (bu gönderiye yeni eklendi): https://github.com/NickAlger/various_scripts/blob/master/maxEntropyMatrix.m

— Nick Alger
kaynak

Çok teşekkür ederim! Ben de basit degrade asscent ile kendim çözdüm, ama bu muhtemelen daha güvenilir. V'nin matlab dosyasında tam sırada olması gerektiği beni rahatsız eden tek şey.

— Dries

@NickAlger Sağlanan bağlantı çalışmıyor, bir göz atmanızı isteyebilir miyim?

— Oluşturan

@Creator yayındaki bağlantı güncellendi! github.com/NickAlger/various_scripts/blob/master/…

— Nick Alger

@NickAlger Matris üzerinde algoritmanın çalışabileceği bir kısıtlama var mı? Bu algoritma karmaşık elemanlara sahip matris için uygun mu? Benim durumumda SVD, matris Nan'e sahip olduğu için bir süre sonra başarısız oluyor.

— Oluşturan

Karmaşık sayıların sorun olması gerektiğini düşünmüyorum. Yöntemin bir sınırlaması, optimal çözümün burada tekrarlanan şey olduğunu tahmin ettiğim özdeğerleri tekrarlayamamasıdır. Bu durumda yöntem, C denkleminde sıfıra bölünen bir şeye yakınsar. Girişleri rastgele bozmayı deneyebilir ve bunun bir şeylere yardımcı olup olmadığını görebilirsiniz. Yukarıda başvurulan Overton kağıdında geçici bir çözüm bulmak için bir yol var, ancak kodum bu kadar gelişmiş değil.

— Nick Alger