Koordinat iniş yöntemlerinin teorik olarak incelenmesi


14

Optimizasyon için sezgisel tarama hakkında bazı ders materyalleri hazırlıyorum ve koordinat iniş yöntemlerine bakıyorum. Buradaki ayar, optimize etmek istediğiniz çok değişkenli bir işlevidir . f , herhangi bir tek değişkenle sınırlı özelliğe sahiptir, optimize edilmesi kolaydır. Böylece koordinat inişi, koordinatlar arasında dolaşarak, seçilen dışında hepsini sabitleyerek ve bu koordinat boyunca en aza indirerek ilerler. Sonunda, iyileştirmeler durma noktasına kadar yavaşlar ve feshedersiniz.ff

Benim sorum şudur: yakınsama hızları ve metodun iyi çalışmasını sağlayan özellikleri hakkında konuşan koordinat iniş yöntemlerinin teorik bir çalışması var mı? Açıkçası, tamamen genel cevaplar beklemiyorum, ama sezginin iyi olduğu vakaları aydınlatan cevaplar yardımcı olacaktır.f

Bir kenara: araçları için kullanılan alternatif optimizasyon tekniği koordinat inişinin bir örneği olarak görülebilir ve Frank-Wolfe algoritması ilişkili görünmektedir (ancak çerçevenin doğrudan bir örneği değildir)k


En azından Ken Clakrson'un kenclarkson.org/sga/p.pdf makalesinde açıklandığı gibi , Frank-Wolfe çok benzer. Tek fark, FW'de inmek için en iyi koordinatı seçmeniz gibi görünüyor. Matusun bahsettiği aynı sparite özelliğine sahiptir.
Sasho Nikolov

2
Sebastien Bubeck yakın zamanda çeşitli yöntemler için dışbükey optimizasyon ve yineleme karmaşıklığı üzerine bir monografı var. Bakmak için yararlı bir yer olabilir. blogs.princeton.edu/imabandit/2014/05/16/…
Chandra Chekuri

Yanıtlar:


24

(Notları düzenle: Uzunluğunda çıldırdıktan sonra yeniden düzenledim.)

Koordinat inişine ilişkin literatürün izini bulmak biraz zor olabilir. İşte bunun bazı nedenleri.

  1. lp

  2. Adlandırma standart değildir. "En dik iniş" terimi bile standart değildir. "Döngüsel koordinat inişi", "koordinat inişi", "Gauss-Seidel", "Gauss-Southwell" terimlerinden herhangi birinde başarılı olabilirsiniz. kullanımı tutarlı değil.

  3. nn

O(ln(1/ϵ))lp

Kısıtlamalar. Güçlü dışbükeylik olmadan, biraz dikkatli olmaya başlamanız gerekir. Kısıtlamalar hakkında hiçbir şey söylemediniz ve bu nedenle genel olarak sonsuzluğa ulaşılamayabilir. Kısıtlamalar konusunda kısaca söyleyeceğim, standart yaklaşımın (iniş yöntemleri ile) kısıtlamanıza yansıtmak, fizibiliteyi korumak için her bir yinelemeyi ayarlamak veya kısıtlamaları objektif işlevinize getirmek için engelleri kullanmaktır. Birincisi durumunda, koordinat inişiyle nasıl oynadığını bilmiyorum; ikincisi durumunda, koordinat inişi ile iyi çalışır ve bu engeller güçlü bir şekilde dışbükey olabilir.

Daha spesifik olarak koordinat yöntemlerine, projeksiyon yapmaktan ziyade, birçok kişi sadece koordinat güncellemesinin fizibilitesini sürdürmesini sağlar: örneğin, Frank-Wolfe algoritması ve varyantlarında (yani, SDP'leri çözmek için kullanmak).

SVM'ler için SMO algoritmasının, aynı anda iki değişkeni güncellediğiniz ve bunu yaparken bir fizibilite kısıtlamasını koruduğunuz bir koordinat iniş yöntemi olarak görüntülenebileceğini de kısaca not edeceğim. Değişkenlerin seçimi bu yöntemde sezgiseldir ve bu nedenle garantiler gerçekten sadece döngüsel garantilerdir. Bu bağlantının standart literatürde görünüp görünmediğinden emin değilim; SMO yöntemini Andrew Ng'nin ders notlarından öğrendim ve oldukça temiz olduklarını gördüm.

n

O(ln(1/ϵ))

Koordinat inişinde daha yeni sonuçlar var, arXiv'de bir şeyler gördüm. Ayrıca, luo & tseng bazı yeni kağıtlar var. ama asıl mesele bu.

i=1mg(ai,λ)g(ai)1mλexp(1/ϵ2)O(1/ϵ)

Kesin güncellemelerle ilgili sorun. Ayrıca, kapalı formda tek bir koordinat güncellemesine sahip olmamanız genellikle söz konusudur. Ya da kesin çözüm basitçe mevcut olmayabilir. Ama neyse ki, temel olarak kesin bir çözümle aynı garantileri alan çok sayıda çizgi arama yöntemi var. Bu materyal standart doğrusal olmayan programlama metinlerinde, örneğin yukarıda belirtilen Bertsekas veya Nocedal & Wright kitaplarında bulunabilir.

İkinci paragrafınıza bir göz atın: bunlar iyi çalıştığında. İlk olarak, yukarıda bahsedilen koordinat inişine yönelik gradyan çalışması için analizlerin çoğu. Öyleyse neden her zaman koordinat inişini kullanmıyorsunuz? Cevap, gradyan inişinin uygulanabilir olduğu birçok sorun için, üstün yakınsamanın kanıtlanabileceği Newton yöntemlerini de kullanabilirsiniz. Koordinat inişiyle Newton avantajını elde etmenin bir yolunu bilmiyorum. Ayrıca, Newton yöntemlerinin yüksek maliyeti Quasinewton güncellemeleriyle azaltılabilir (örneğin, bkz. LBFGS).

l0kkkkf


2
vay. bu gerçekten kapsamlı bir cevap. Teşekkürler !
Suresh Venkat


2

Biz sadece arXiv ( http://arxiv.org/abs/1201.1214 ) ile ilgili optimizasyon problemleri için "istatistiksel algoritmalar" için genel alt sınırları kanıtlayan ve her "problemin" çeşitli özellikler.

Koordinat inişi (ve düşünebileceğimiz hemen hemen her şey) çerçevemizde istatistiksel bir algoritma olarak görülebilir, umarım bu makalenin ilginizi çekecek bazı sonuçları vardır.


Güzel. Buna bakacağım.
Suresh Venkat

2

Optimizasyonda "yakınsama hızı" genellikle asimtotik davranış anlamına gelir. Yani, oran sadece en uygun çözümlerin mahallesi için geçerlidir. Bu anlamda Luo ve Tseng, "Dışbükey diferansiyellenebilir minimizasyon için koordinat iniş yönteminin yakınsaması" başlıklı makalede güçlü dışbükey olmayan objektif fonksiyonlar için doğrusal yakınsama hızlarını kanıtladı.

Asimptotik olmayan yakınsama hızı, yani "iterasyon karmaşıklığı", genellikle, minimize etme algoritmalarının iterasyon sayılarının sınırlanmasında daha yararlıdır. Kuvvetli dışbükey objektif fonksiyonlar için, döngüsel koordinat iniş yöntemlerinin yineleme karmaşıklığı zaten Luo & Tseng'in Hata sınırlarında ve uygulanabilir iniş yöntemlerinin yakınsama analizinde gösterilmektedir: eğer küresel bir hataya bağlıysa genel bir yaklaşım . Kuvvetli dışbükey problemler için, Dışbükey Optimizasyon için Uygulanabilir İniş Yöntemlerinin İterasyon Karmaşıklığında bazı yeni sonuçlar elde ettik. Spesifik olarak, SVM'lerin ikili formu ve Gauss-Seidel yöntemleri gibi problemler üzerinde döngüsel koordinat iniş yöntemleri için yineleme karmaşıklığını gösterdik. Ayrıca, sonuçlar aynı zamanda gradyanlı iniş ve arkadaşları içeren diğer uygun iniş yöntemlerini de kapsamaktadır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.