Bahsettiğiniz ilk iki algoritma (Nelder-Mead ve Simüle Tavlama) genellikle hem daha güvenilir hem de daha az maliyetli olan daha iyi alternatifler olduğu için optimizasyon çevrelerinde oldukça eski olarak kabul edilir. Genetik algoritmalar geniş bir yelpazeyi kapsar ve bunlardan bazıları makul olabilir.
Bununla birlikte, daha geniş bir türev içermeyen optimizasyon (DFO) algoritması sınıfında, son yıllarda aktif bir araştırma alanı olduğu için, bu "klasiklerden" daha iyi olan birçok kişi var. Öyleyse, bu yeni yaklaşımlardan bazıları derin öğrenme için makul olabilir mi?
Tekniğin durumunu karşılaştıran nispeten yeni bir makale aşağıdadır:
Rios, LM ve Sahinidis, NV (2013) Türevsiz optimizasyon: algoritmaların incelenmesi ve yazılım uygulamalarının karşılaştırılması. Global Optimizasyon Dergisi.
Bu, son tekniklerle ilgili birçok ilginç kavrayışı olan hoş bir yazıdır. Örneğin, sonuçlar açıkça en iyi yerel optimize edicilerin farklı sıralı kuadratik programlama biçimlerini (SQP) kullanan "model tabanlı" olduğunu göstermektedir .
Ancak, özetlerinde belirtildiği gibi, "Bütün bu çözücülerin iyi çözümler elde etme yeteneğinin artan problem büyüklüğü ile azaldığını buluyoruz." Sayılar hakkında bir fikir vermek için, tüm problemler için çözücülere 2500 fonksiyon değerlendirmesi bütçesi verildi ve problem büyüklükleri optimize etmek için maksimum ~ 300 parametre idi. O [10] parametrelerinin ötesinde, bu optimize edicilerden çok azı çok iyi performans gösterdi ve en iyileri bile sorun boyutu arttıkça performansta gözle görülür bir azalma gösterdi.
Bu yüzden, çok yüksek boyutlu problemler için, DFO algoritmaları türev tabanlı olanlarla rekabetçi değildir. Bir bakış açısı vermek gerekirse, PDE (kısmi diferansiyel denklem) tabanlı optimizasyon , çok yüksek boyut problemleri olan başka bir alandır (örneğin, büyük bir 3D sonlu elemanlar ızgarasının her hücresi için birkaç parametre). Bu alanda, " eşleştirme yöntemi " en çok kullanılan yöntemlerden biridir. Bu ayrıca ileri model kodunun otomatik farklılaşmasına dayanan bir degrade iniş iyileştiricisidir.
Yüksek boyutlu bir DFO iyileştiricisine en yakın olan belki de hava durumu modelleri gibi karmaşık PDE simülasyonlarına veri özümsemek için kullanılan Ensemble Kalman Filtresidir . İlginç bir şekilde, bu esasen bir SQP yaklaşımıdır, ancak Bayes-Gauss yorumuyla (yani ikinci dereceden bir model olumlu, yani hiçbir eyer noktası yok). Ancak, bu uygulamalardaki parametre ya da gözlem sayısının derin öğrenmede görülenlerle karşılaştırılabilir olduğunu sanmıyorum.
Not: (yerel minima): Derin öğrenmede okuduğum küçükten itibaren, fikir birliğinin, yüksek boyutlu NN parametresi için en problemli olan yerel minimadan ziyade eyer noktaları olduğu kanaatindeyim .
Örneğin, Nature dergisindeki son incelemede , "Son teorik ve ampirik sonuçlar, yerel minarinin genel olarak ciddi bir sorun olmadığını şiddetle tavsiye ediyor. Bunun yerine, manzara, gradyanın sıfır olduğu ve birleştiği zaman çok sayıda eyer noktasıyla doludur. yüzey çoğu boyutta yukarı doğru eğriler ve geri kalan kısımda aşağı doğru eğriler. "
İlgili bir endişe yerel ve küresel optimizasyon hakkındadır (örneğin, bu soru yorumlarda belirtilmiştir). Derin öğrenme yapmasam da, tecrübelerime göre abartmak kesinlikle geçerli bir mesele. Kanımca, global optimizasyon yöntemleri en çok "doğal" verilere dayanmayan mühendislik tasarım problemleri için uygundur . Veri asimilasyon problemlerinde, mevcut herhangi bir küresel minima, yeni veri eklendikten sonra kolayca değişebilir (ihmal: Deneyim , verilerin model kapasitesine göre genellikle "seyrek" olduğu jeobilim problemlerinde yoğunlaşmıştır).
Belki ilginç bir bakış açısı
O. Bousquet & L. Bottou (2008) Büyük çaplı öğrenmenin değişmesi . NIPS.
Uygulamada neden ve ne zaman yaklaşık optimizasyonun tercih edilebileceği konusunda yarı teorik argümanlar sunar.
Son not (meta optimizasyon): Degrade tabanlı tekniklerin eğitim ağları için baskındır gibi görünmesine rağmen, ilgili meta optimizasyon görevlerinde DFO için bir rol olabilir.
Bir örnek, hiper-parametre ayarı olabilir. (İlginçtir ki, Rios & Sahinidis’in başarılı model tabanlı DFO iyileştiricileri, temel olarak bir dizi deney tasarımı / yanıt yüzeyi problemi çözüyor gibi görünebilir .)
Başka bir örnek, katmanların kurulması (örneğin sayı, tür, sıra, düğüm / katman) anlamında mimarileri tasarlamak olabilir. Bu ayrık optimizasyon bağlamında genetik stil algoritmaları daha uygun olabilir. Burada, bağlantının bu faktörler tarafından dolaylı olarak belirlendiği durumu düşünüyorum (örneğin, tam bağlantılı katmanlar, evrişimli katmanlar vb.). Diğer bir deyişle, bağlantısı olup meta optimize açık. (Bağlantı gücü, örneğin, düzenli hale ve / veya ReLU aktivasyonları ile seyrekliğin desteklenebildiği yerlerde eğitim altında kalacaktır ... ancak bu seçimler meta-optimize edilebilir.)O[N2]notL1