TL; DR
LIPO kullanmanızı öneririm. Saf rastlantısal aramadan (PRS) kanıtlanmış bir şekilde doğru ve kanıtlanabilir bir şekilde daha iyidir. Ayrıca uygulanması son derece basittir ve hiperparametreleri yoktur. LIPO'yu BO'yla karşılaştıran bir analiz yapmadım, ancak beklentim LIPO'nun sadeliğinin ve verimliliğinin BO'yu gerçekleştireceği anlamına gelmesi.
(Ayrıca bkz: Bayesian hiper parametre optimizasyonunun bazı sakıncaları nelerdir? )
Bayesian Optimizasyonu
Bayesian Optimizasyon tipi yöntemler, parametre uzayını keşfetmek için Gaussian süreç vekil modellerini oluşturur. Ana fikir, birbirine daha yakın olan parametre kümelerinin benzer işlev değerlerine sahip olacağıdır, bu nedenle noktalar arasında bir eşgüdüm yapısının varsayılması, algoritmanın, daha sonra denemek için en iyi parametre demetinin en iyi ne olduğuna dair eğitimli tahminler yapmasını sağlar. Bu strateji, fonksiyon değerlendirme sayısını azaltmaya yardımcı olur; Aslında, BO yöntemlerinin motivasyonu, bir sonraki test edilecek nokta hakkında iyi tahminler yapmak için "bütün bufaloyu kullanırken" fonksiyon değerlendirme sayısını mümkün olduğunca düşük tutmaktır. Bir sonraki ziyaret edilecek noktaları karşılaştırmak için kullanılan farklı liyakat değerleri (beklenen gelişme, beklenen niceliksel gelişme, gelişme olasılığı ...) vardır.
Bunu, daha sonra nereye gideceğinizi bildirmek için önceki işlev değerlendirmelerindeki hiçbir bilgiyi asla kullanmayacak olan, ızgara araması gibi bir şeye benzetin.
Bu arada, bu aynı zamanda güçlü bir küresel optimizasyon tekniğidir ve bu nedenle yüzeyin dışbükeyliğine dair hiçbir varsayımda bulunmaz. Ek olarak, eğer işlev stokastik ise (değerlendirmelerin bazı rastgele rastlantısal sesleri vardır), bu doğrudan GP modelinde açıklanabilir.
Öte yandan, her yinelemede en az bir GP sığdırmanız gerekir (veya birkaç tanesi, "en iyiyi" seçerek, alternatiflerin ortalamasını almayı veya tamamen Bayesian yöntemlerini kullanarak). Daha sonra, bu model, genellikle çok başlangıçlı yerel optimizasyon formunda (muhtemelen binlerce) tahmin yapmak için kullanılır ve gözlem, GP tahmin fonksiyonunu değerlendirmenin optimizasyondaki fonksiyondan daha ucuz olduğunu gözlemler. Ancak bu hesaplama ek yükü olsa bile, konveks olmayan işlevlerin bile göreceli olarak az sayıda işlev çağrısı ile en iyi duruma getirilebileceği bir durum söz konusudur.
Konu hakkında geniş çapta alıntı yapılan bir makale Jones ve ark. , “Pahalı Kara Kutu İşlevlerinin Etkin Küresel Optimizasyonu” dır . Ancak bu fikirde birçok varyasyon var.
Rasgele Arama
Maliyet işlevinin değerlendirilmesi pahalı olsa bile, rasgele arama yine de faydalı olabilir. Rastgele arama yapmak kolaydır. Ayarlıyor yapmak için bir araştırmacı için tek seçenek olasılık sonuçlarınızın bazılarında yatmak istiyorum kuantil ; Gerisi, temel olasılıktan gelen sonuçları kullanarak otomatik olarak ilerler.p q
Senin quantile olduğunu varsayalım ve bir istiyorum modeli sonuçları üst olduklarını olasılık tüm hyperparameter dizilerini yüzdesi. Tüm olasılık tuples olan teşebbüs olup , bu pencerede bir (aynı dağıtım rastgele bağımsız olarak seçilir çünkü), bu yüzden olasılığı o en az bir demet bu bölgede olduğu . Hepsini bir araya koyarak, biz varq=0.95p=0.95100×(1−q)=5nqn=0.95n1−0.95n
1−qn≥p⟹n≥log(1−p)log(q)
Bizim özel durumumuzda verimn≥59 .
n=60n=60
Sonuçların ne kadar iyi olduğuna dair olası bir garantiniz olduğundan, patronunuzu daha fazla deneme yapmanın gerekmediğine ikna etmek ikna edici bir araç olabilir.
LIPO ve Çeşitleri
Bu yeni değilse , kesinlikle benim için yeni olan heyecan verici bir varış . İşleve bilgili sınırlar koymak ve en iyi sınırdan örnekleme yapmak ve ikinci dereceden yaklaşımları kullanmak arasında geçiş yaparak ilerler. Hala tüm detaylar üzerinde çalışıyorum ama bence bu çok umut verici. Bu güzel bir blog yazısıdır ve makale Cédric Malherbe ve Nicolas Vayatis'dir . " Lipschitz fonksiyonlarının global optimizasyonu ."