Konveks olmama optimizasyonda neden bir sorun olmalı?


20

Genel olarak dışbükey olmayan optimizasyon hakkında bir şeyler okumaya başladığımda çok şaşırdım ve şöyle ifadeler gördüm:

Önemli pratik sorunların çoğu dışbükeydir ve dışbükey olmayan sorunların çoğunu tam olarak makul bir zamanda çözmek zordur (imkansız değilse bile). ( kaynak )

veya

Genelde yerel bir minimum bulmak NP-zordur ve birçok algoritma bir eyer noktasında sıkışabilir. ( kaynak )

Her gün dışbükey olmayan bir optimizasyon yapıyorum - yani moleküler geometrinin gevşemesi. Asla zor, yavaş ve takılmakla yükümlü bir şey olarak görmedim. Bu bağlamda, açıkça çok boyutlu dışbükey olmayan yüzeylere sahibiz (> 1000 serbestlik derecesi). Çoğunlukla birkaç yüz adımda yerel bir minimuma (DOF sayısından daha az) yaklaşan FIRE gibi en dik iniş ve dinamik söndürmeden türetilen birinci dereceden teknikleri kullanıyoruz . Stokastik gürültü ilavesi ile cehennem kadar sağlam olmasını bekliyorum. (Küresel optimizasyon farklı bir hikaye)

Bu optimizasyon yöntemlerinin sıkışmasını veya yavaşça yakınsamasını sağlamak için potansiyel enerji yüzeyinin nasıl görünmesi gerektiğini bir şekilde hayal edemiyorum . Çok patolojik PES (dışbükeyliğe bağlı değil) bu spiraldir , ancak bu büyük bir sorun değildir. Patolojik dışbükey olmayan PES'in açıklayıcı bir örneğini verebilir misiniz?

Bu yüzden yukarıdaki alıntılarla tartışmak istemiyorum. Aksine, burada bir şey eksik olduğumu hissediyorum . Belki de bağlam.


4
Buradaki anahtar kelime "genel olarak" dır - özellikle "tüm eyer noktaları" olan çok yüksek boyutlarda keyfi olarak kötü işlevler oluşturabilirsiniz. Özgül konveks olmayan fonksiyonellerin sınıfları, diğer taraftan, uygun küreselleşme stratejileri kullanmak, özellikle çok güzel davranmış olabilir.
Christian Clason

2
Bence en uygun kontrol teorisi ve mühendislik / yöneylem araştırması uygulamaları doğruluk / sağlamlığa oldukça önem verirken, bir yere "yeterince iyi" ulaşmanın yeterince iyi olduğunu düşünüyorsunuz. Performans sınırları (bir robotun yörüngesinin zaman içinde hesaplanması için yakınsama garanti edilmelidir) veya doğruluk sınırları (sorun parametrelerini biraz değiştirirseniz, beklenmedik bir şekilde tamamen farklı bir sonuç elde edemezsiniz) olabilir. Bu nedenle, en uygun noktaları elde etmek yeterli değildir, aynı zamanda bazı öngörülen özelliklere sahip olmaları da gereklidir.
Kirill

Yanıtlar:


23

Yanlış anlama, bir optimizasyon sorununun "çözülmesini" sağlayan şeydir, örn. . Matematikçiler için, sorun ancak "çözüldük" şeklinde değerlendirilir:argminf(x)

  1. Aday çözüm: Karar değişkeni ve karşılık gelen hedef değeri için özel bir seçimx , ANDf(x)
  2. Optimallik kanıtı: seçiminin küresel olarak en uygun olduğunun, yani f ( x ) f ( xx nin her x seçeneği için geçerli.f(x)f(x)x

Tüm konveks, her iki madde kolayca elde edilir. Degrade inişi , degradeyi ortadan kaldıran bir aday çözüm x bulur f ( x ) = 0 . En iyilik kanıtı MATH101 öğretilen basit gerçeğinin bir sonucudur, eğer f isimli dışbükey ve onun gradyan f yok olur, en x , o zaman X küresel bir çözümdür.fxf(x)=0ffxx

Ne zaman konveks olmayan bir bir aday çözüm halen bulmak kolay olabilir, ama Optimalliğin kanıtı son derece zorlaşır. Örneğin, gradyan inişini çalıştırabilir ve f ( x ) = 0 noktasını bulabiliriz . Ancak f dışbükey olmadığında, f ( x ) = 0 koşulu , yalnızca gradyan bilgisine dayalı olarak yerel bir minimumdur. Bir yaklaşım f (ff(x)=0ff(x)=0 gereklidir, ancak artık küresel tercih için yeterli değildir. Gerçekten de, yerel iyimserlik için bile yeterli değildir , yani xve bu sadece bir veya iki boyutta bile zorlu bir görev olabilir.f(x)=0

Matematikçiler çoğu problemin çözülmesinin imkansız olduğunu söylediklerinde, (hatta yerel) iyimserlik kanıtının oluşturulmasının . Ancak gerçek dünyada, genellikle sadece "yeterince iyi" bir çözümün hesaplanmasıyla ilgileniriz ve bu, sonsuz sayıda yolla bulunabilir. Son derece dışbükey olmayan birçok sorun için, sezgimiz bize "yeterince iyi" çözümlerin aslında bunu kanıtlayamasak bile, küresel olarak optimal olduğunu söyler!


küresel ve yerel tercihler birbirinden tamamen farklı bir konudur. Ama gerisi mantıklı. "X'in yalnızca gradyan bilgisine dayanarak yerel bir minimum olduğunu garanti edemeyiz" hakkında daha fazla şey söyleyebilir veya bunu daha iyi gösterebilir mi?
Prokop Hapala

Kara kutular olarak ve g ( x ) = x 4 fonksiyonlarına sahip olduğumuzu varsayalım (yani yalnızca değerlendirebiliriz, ancak formlarını göremeyiz). X = 0 noktası her iki degradeyi yok eder, yani f ( x ) = 0 ve g ( x ) = 0 , ancak nokta g için yalnızca yerel bir minimumdur.f(x)=x3g(x)=x4x=0f'(x)=0g'(x)=0g . Aslında, ikinci türevleri de bu noktada sıfırdır, bu yüzden iki senaryo sadece ilk iki türev ile aynıdır!
Richard Zhang

aha, tamam, ben her zaman otomatik olarak atalet => algoritma noktada toplanmaları eğiliminde olmaz varsayalım yılında g ( x ) = x 3 hiç. Ama eminim, orada sadece bir noktadaki gradyanı değil, önceki adımlardan gelen ek bilgileri (atalet) kullanıyoruz. x=0g(x)=x3
Prokop Hapala

Ne demek istediğini anlıyorum. Ve belki de titiz matematiksel anlamda dışbükey olmayan optimizasyonun zor olarak kabul edilmesinin nedeni budur. Ama yine de sezgisel (algoritmanın doğal bir parçası olarak kabul ediyorum) pratik bir şekilde başarısız olacağı pratik uygulama ile ilgileniyorum.
Prokop Hapala

Yarı konveksite ne olacak? Bu mantığa göre (( değildir quasiconvex sorunlar Benim anlayış ?. dışbükey sorunları olarak optimize kolay olarak olurdu) yeterli olduğu doğru ikincisi değil mi'(dışbükey sorunlar hala daha kolaydır).f(x)=0
Amelio'nun Vazquez-Reina

6

Zor bir düşük boyutlu soruna örnek olarak şunlar verilebilir:

resim açıklamasını buraya girin

Yerel bir minimaya çarptığınız düşünüldüğünde, küresel minima kadar iyi bir şey olduğundan nasıl emin olabilirsiniz? Küresel olarak optimal olduğu düşünüldüğünde sonucunuzun benzersiz bir optimum çözüm olup olmadığını nasıl anlarsınız? Tüm tepelere ve vadilere karşı sağlam bir algoritmayı nasıl oluşturabilirsiniz, böylece bir yere yapışmaz?

Bunun gibi bir örnek, işlerin zorlanabileceği bir örnektir. Açıkçası, tüm problemler böyle değil, bazıları da öyle. Daha da kötüsü, endüstrideki bir ortamda maliyet fonksiyonu hesaplamak için zaman alıcı olabilir ve yukarıdaki gibi sorunlu bir yüzeye sahip olabilir.

Gerçek Sorun Örneği

İş yerinde ele alabileceğim bir örnek, birçok fırlatma koşulunda sağlam olabilecek bir füze yönlendirme algoritması için bir optimizasyon yapmaktır. Kümemizi kullanarak, tek bir koşul için yaklaşık 10 dakika içinde ihtiyacım olan performans ölçümlerini alabilirim. Şimdi sağlamlığı yeterince değerlendirmek için, en azından yargılamak için bir koşul örneği isteyeceğiz. Diyelim ki altı koşul yürütüyoruz, bu maliyet fonksiyonunun değerlendirilmesini bir saat sürüyor.

Doğrusal olmayan füze dinamikleri, atmosferik dinamikler, ayrık zaman süreçleri, vb. Bu maliyet fonksiyonunun dışbükey olması, büyük bir konuyu değerlendirmenin zaman alıcı olmasını sağlar. Bunun gibi bir örnek, bize verilen sürede elimizden gelenin en iyisini elde etmek için çaba göstereceğimiz yer.


1
Tamam, bu bence farklı bir sorun ... çoğu durumda açıkça zor ve çözümsüz olan küresel optimizasyon problemi. Ancak, dışbükey olmayan optimizasyon konusunda insanların bahsettiği şey bu değildir, burada yerel bir minimum bulmak için NP-zor olduğunu ve birçok algoritmanın bir eyer noktasında sıkışabileceğini
Prokop Hapala

1
@ProkopHapala Yorumlarım daha çok alıntıya atıfta bulundu Önemli pratik pratik problemler dışbükey değildir ve dışbükey olmayan sorunların çoğunun makul bir zamanda tam olarak çözülmesi zordur (imkansız değilse bile) , özellikle OP ne kadar basit olduğundan bahsediyordu araştırmalarda dışbükey olmayan problemlerle başa çıkmak onlar içindi. Çözme tam bana göre bir genel optimal çözüm (ya da bir şey yakın) için çabalamaktadır. Bu yüzden bu yorumlarla ilgili gerçek dünyadaki zorlukların resmini çizmek istedim.
spektr

Anlıyorum. Kesinlikle söylemek gerekirse haklısın, ama yine de kastettiğim şeyi ele almadığını düşünüyorum ... belki de daha iyi formüle etmeliydim.
Prokop Hapala

5

Sorun, bağladığınız gönderide tartışılan eyer noktalarının sorunudur. Bağlantılı makalelerden birinin özetinden :

Bununla birlikte, genel olarak, bu tür algoritmaların, yüksek boyutlardaki karmaşık eyer noktası yapılarının varlığı nedeniyle, yerel bir minimuma bile yaklaştığını garanti etmek zordur. Birçok fonksiyon, dejenere eyer noktalarına sahiptir, böylece birinci ve ikinci dereceden türevler onları yerel optima ile ayırt edemez . Bu makalede, bu eyer noktalarından kaçmak için daha yüksek mertebeden türevler kullanıyoruz: üçüncü mertebe lokal bir optimuma dönüşmesi garanti edilen ilk etkin algoritmayı tasarlıyoruz (mevcut teknikler en fazla ikinci mertebe iken). Ayrıca, dördüncü dereceden yerel optima'yı bulmak için bunu daha da genişletmenin NP zor olduğunu gösteriyoruz.

Esasen, 1., 2. ve 3. türevlere bakarken yerel miniminden ayırt edilemeyen eyer noktalarına sahip olduğunuz işlevlere sahip olabilirsiniz. Daha yüksek bir sipariş optimizasyonuna giderek bunu çözebilirsiniz, ancak 4. dereceden yerel minimum finidng'in NP zor olduğunu gösterirler.

x2y+y2

Bu gibi noktalardan kaçmak için birçok buluşsal yöntem kullanabilirsiniz, bu da birçok (en?) Gerçek dünya örneği için işe yarayabilir , ancak her zaman işe yaradığı kanıtlanamaz .
Bağladığınız blog yazısında , aynı zamanda polinom zamanında bu eyer noktalarından kaçabileceğiniz koşulları da tartışıyorlar.


x2y+y2

2
Ona başka şekilde bakmak zorundasınız. Stokastik gradyan inişinin başarısız olacağını bilmiyoruz, başarılı olacağını bilmiyoruz. Oyuncak sorunları için, bunun uygulamada olması muhtemel değildir, ancak daha yüksek boyutlu problemler için olabilir. Bahse girerim, kimya problemleriniz için bu asla olmayacak, ama bunu kanıtlamakta zorlanacağım.
LKlevin
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.