Maliyet İşlevinin Değerlendirmeyi Yavaşladığında Optimizasyonu


59

Degrade iniş ve diğer birçok yöntem, maliyet fonksiyonlarında yerel minima bulmak için kullanışlıdır. Maliyet fonksiyonu, her noktada, sayısal veya analitik olarak hızlı bir şekilde değerlendirilebildiği zaman verimli olabilirler.

Sıradışı bir durum olarak bana görünen neye sahibim. Maliyet fonksiyonumun her değerlendirmesi pahalıdır. Zemin yüzeyine karşı 3B yüzeyi en aza indiren bir dizi parametre bulmaya çalışıyorum. Ne zaman bir parametreyi değiştirirsem, etkisini ölçmek için algoritmayı tüm numune kohortuna karşı çalıştırmam gerekiyor. Bir gradyanı hesaplamak için, tüm 15 parametreyi bağımsız olarak değiştirmem gerekiyor, yani tüm yüzeyleri yeniden oluşturmalı ve örnek kohort ile gradyan başına çok fazla ve kesinlikle optimizasyon boyunca çok defa karşılaştırmalıyım.

Bu sorunu aşmak için bir yöntem geliştirdim ve şu anda onu değerlendiriyorum, ancak literatürde pahalı maliyet fonksiyonu değerlendirmeleri ile ilgili pek bir şey bulamadığım için şaşırdım. Bu, bana sorunu daha zor hale getirip getirmediğimi ve halihazırda daha iyi bir yol olabileceğini merak ediyorum.

Yani benim sorularım temelde şudur: Değerlendirme yavaş olduğunda maliyet fonksiyonlarını optimize etmek için kullanılan yöntemleri bilen var mı? Veya, algoritmayı tekrar çalıştırarak ve örnek kohortla birçok kez karşılaştırarak, ilk başta aptalca bir şey mi yapıyorum?


5
Stokastik gradyan inişini duydunuz mu? Büyük Eğitim setlerine uygulanan derin sinir ağları için benzer bir sorun yaşarsınız (ancak gradyanı analitik olarak değerlendirebilirsiniz) ve standart çözüm, tüm kohort (toplu) ile yalnızca tek bir numuneye (stokastik) dayanarak gradyan inişini sağlamaktır
seanv507

3
Ben sadece belli belirsiz bir alana aşinayım, bu yüzden bu bir cevaptan çok bir yorum. Ancak, tartıştığınız şey , mühendisler tarafından sıklıkla karşılaşılan ve hedef fonksiyonun tek bir değerlendirmesinin değerlendirilmesi haftalar sürdüğü (en azından mühendislik arkadaşlarımın karşılaştığı problemler) konu olan Belirsizlik Miktarı konusu gibi. Bunun nasıl ele alındığına dair çok sınırlı bir anlayışım, geçmiş değerlendirmelere ve daha basit mühendislik modellerine dayanarak değerlendirmek için çok daha kolay olan bir vekil yaklaşımı yapmak ve daha sonra bir sonraki değerlendirmeyi seçmek için bu vekil modelleri kullanmak ...
Cliff AB

2
... daha pahalı hedef fonksiyonlarından. Söylemekten nefret ediyorum ama şu anda konu hakkında artık bir şey bilmiyorum; Söz konusu mühendislerle araştırma konularını tartışırken, yalnızca kısaca bunun hakkında bilgilendirildim. İlginç bir şekilde, çok zorlu bir araştırma alanı gibi görünüyor: İyi modellerin hem fiziği hem de istatistiği iyi anlamalarını gerektirdiğine inanıyorum .
Cliff AB

1
@ seanv507 Evet, teşekkürler, ancak benzer bir nedenden kaçındım. Bir numuneyi çalıştırmak yaklaşık 30 saniye ila bir dakika sürer. 15 parametrem varsa, yalnızca bir örnek kullansam bile gradyan hesaplama başına yaklaşık 8 dakikada bakıyorum. Alan büyükse, çok uzun sürebilir. Aklınızda başka fikirleriniz varsa lütfen beni düzeltin.
Jared Becksfort

5
"Bana olağandışı bir durum olarak görünen şey. Maliyet fonksiyonumun her değerlendirmesi pahalıdır." Genel olarak, bu olağandışı bir durum değildir. Her yerde, örneğin maliyet fonksiyonunuz bir simülasyon yapmaktan çıktığı zaman ortaya çıkar (Örneğin, bu yazıda: white.ucc.asn.au/publications/White2015PsoTransistorSizing.pdf SPICE’de 10 sn alarak bir devre simüle ediyoruz). Daha önemlisi, deneysel bilimde, değerlendirmeler yaş alabilir. Arkadaşlarımdan bir tanesi Masters projesi, DNA eklemenin en iyi yolunu bulmak için 5 parametreyi optimize ediyor. Her değerlendirme 24 saat sürer.
Lyndon White

Yanıtlar:


59

TL; DR

LIPO kullanmanızı öneririm. Saf rastlantısal aramadan (PRS) kanıtlanmış bir şekilde doğru ve kanıtlanabilir bir şekilde daha iyidir. Ayrıca uygulanması son derece basittir ve hiperparametreleri yoktur. LIPO'yu BO'yla karşılaştıran bir analiz yapmadım, ancak beklentim LIPO'nun sadeliğinin ve verimliliğinin BO'yu gerçekleştireceği anlamına gelmesi.

(Ayrıca bkz: Bayesian hiper parametre optimizasyonunun bazı sakıncaları nelerdir? )

Bayesian Optimizasyonu

Bayesian Optimizasyon tipi yöntemler, parametre uzayını keşfetmek için Gaussian süreç vekil modellerini oluşturur. Ana fikir, birbirine daha yakın olan parametre kümelerinin benzer işlev değerlerine sahip olacağıdır, bu nedenle noktalar arasında bir eşgüdüm yapısının varsayılması, algoritmanın, daha sonra denemek için en iyi parametre demetinin en iyi ne olduğuna dair eğitimli tahminler yapmasını sağlar. Bu strateji, fonksiyon değerlendirme sayısını azaltmaya yardımcı olur; Aslında, BO yöntemlerinin motivasyonu, bir sonraki test edilecek nokta hakkında iyi tahminler yapmak için "bütün bufaloyu kullanırken" fonksiyon değerlendirme sayısını mümkün olduğunca düşük tutmaktır. Bir sonraki ziyaret edilecek noktaları karşılaştırmak için kullanılan farklı liyakat değerleri (beklenen gelişme, beklenen niceliksel gelişme, gelişme olasılığı ...) vardır.

Bunu, daha sonra nereye gideceğinizi bildirmek için önceki işlev değerlendirmelerindeki hiçbir bilgiyi asla kullanmayacak olan, ızgara araması gibi bir şeye benzetin.

Bu arada, bu aynı zamanda güçlü bir küresel optimizasyon tekniğidir ve bu nedenle yüzeyin dışbükeyliğine dair hiçbir varsayımda bulunmaz. Ek olarak, eğer işlev stokastik ise (değerlendirmelerin bazı rastgele rastlantısal sesleri vardır), bu doğrudan GP modelinde açıklanabilir.

Öte yandan, her yinelemede en az bir GP sığdırmanız gerekir (veya birkaç tanesi, "en iyiyi" seçerek, alternatiflerin ortalamasını almayı veya tamamen Bayesian yöntemlerini kullanarak). Daha sonra, bu model, genellikle çok başlangıçlı yerel optimizasyon formunda (muhtemelen binlerce) tahmin yapmak için kullanılır ve gözlem, GP tahmin fonksiyonunu değerlendirmenin optimizasyondaki fonksiyondan daha ucuz olduğunu gözlemler. Ancak bu hesaplama ek yükü olsa bile, konveks olmayan işlevlerin bile göreceli olarak az sayıda işlev çağrısı ile en iyi duruma getirilebileceği bir durum söz konusudur.

Konu hakkında geniş çapta alıntı yapılan bir makale Jones ve ark. , “Pahalı Kara Kutu İşlevlerinin Etkin Küresel Optimizasyonu” dır . Ancak bu fikirde birçok varyasyon var.

Rasgele Arama

Maliyet işlevinin değerlendirilmesi pahalı olsa bile, rasgele arama yine de faydalı olabilir. Rastgele arama yapmak kolaydır. Ayarlıyor yapmak için bir araştırmacı için tek seçenek olasılık sonuçlarınızın bazılarında yatmak istiyorum kuantil ; Gerisi, temel olasılıktan gelen sonuçları kullanarak otomatik olarak ilerler.p q

Senin quantile olduğunu varsayalım ve bir istiyorum modeli sonuçları üst olduklarını olasılık tüm hyperparameter dizilerini yüzdesi. Tüm olasılık tuples olan teşebbüs olup , bu pencerede bir (aynı dağıtım rastgele bağımsız olarak seçilir çünkü), bu yüzden olasılığı o en az bir demet bu bölgede olduğu . Hepsini bir araya koyarak, biz varq=0.95p=0.95100×(1q)=5nqn=0.95n10.95n

1qnpnlog(1p)log(q)

Bizim özel durumumuzda verimn59 .

n=60n=60

Sonuçların ne kadar iyi olduğuna dair olası bir garantiniz olduğundan, patronunuzu daha fazla deneme yapmanın gerekmediğine ikna etmek ikna edici bir araç olabilir.

LIPO ve Çeşitleri

Bu yeni değilse , kesinlikle benim için yeni olan heyecan verici bir varış . İşleve bilgili sınırlar koymak ve en iyi sınırdan örnekleme yapmak ve ikinci dereceden yaklaşımları kullanmak arasında geçiş yaparak ilerler. Hala tüm detaylar üzerinde çalışıyorum ama bence bu çok umut verici. Bu güzel bir blog yazısıdır ve makale Cédric Malherbe ve Nicolas Vayatis'dir . " Lipschitz fonksiyonlarının global optimizasyonu ."


1
Bu yanıt yüzey yöntemlerinin modern bir değişkeni gibi gözüküyor!
kjetil b halvorsen

1
Aslında, rasgele arama oldukça iyi çalışabilir: argmin.net/2016/06/20/hypertuning
Tim

1
@Tim Evet, amacınız çok iyi. Her biri "en iyi" kara kutu iyileştirici olduğunu iddia eden BO'lar için sonsuz sınırlamalar olduğundan, bu yazıdaki sorunun hangisinin daha iyi olacağına "karar vermek" istemedim. Rasgele aramanın oldukça iyi sonuç verebileceğini kabul ediyorum, ancak PRS üzerinden LIPO'yu tavsiye ederim. LIPO, kesinlikle doğru ve güçlü bir şekilde tüm deneylerimde PRS'yi (ortalama olarak) yerine getiriyor. LIPO ayrıca minimum tahmin maliyetine sahiptir: eğer bir QP'yi en aza indirebilirseniz, o zaman LIPO'yu kullanabilirsiniz ve LIPO'da sıfır hiperparametreleri vardır (BO'nun aksine).
Monica

Bu soruyu tekrar kontrol ettiğim için memnunum. LIPO harika görünüyor.
Jared Becksfort

LIPO harika. Bir anım olduğunda, daha iyi bir LIPO muhasebesi vermek için cevabımı genişleteceğim.
Monica

40

f(x)x

Pahalı kara kutu işlevinin değerlendirilmesi için mevcut altın standardın (global) Bayesian optimizasyonu (BO) olduğunu söyleyebilirim . Sycorax zaten BO'nun bazı özelliklerini açıkladı, bu yüzden sadece yararlı olabilecek bazı bilgiler ekliyorum.

Başlangıç ​​noktası olarak, bu genel bakış belgesini 1 okumak isteyebilirsiniz . Daha yeni bir tane daha var [2].

Bayesian optimizasyonu, bir dizi özel atölye çalışmasıyla (örneğin, BayesOpt ve BO'daki Sheffield atölye çalışmasından bu videolara göz atın) son yıllarda sürekli bir alan olarak büyümektedir . ML algoritmalarının hiper parametrelerini optimize etmek için - bakınız örneğin bu makale [3] ve ilgili araç kutusu, SpearMint . Çeşitli dillerde Bayesian optimizasyon algoritmaları uygulayan çeşitli dillerde birçok paket var.

Bahsettiğim gibi, temel gereksinim, her bir fonksiyon değerlendirmesinin çok maliyetli olması, böylece BO ile ilgili hesaplamalar göz ardı edilebilir bir ek yük eklemesidir. Bir basketbol sahası vermek için, eğer işleviniz dakikalar veya daha fazla bir süre içinde değerlendirirse, BO kesinlikle yardımcı olabilir. Daha hızlı hesaplamalar için de uygulayabilirsiniz (örneğin, onlarca saniye), ancak hangi algoritmayı kullandığınıza bağlı olarak çeşitli yaklaşımları benimsemek zorunda kalabilirsiniz. Eğer fonksiyonunuz saniye cinsinden değerlendirilirse , şu anki araştırmanın sınırlarına çarptığınızı ve belki de diğer metotların daha faydalı olabileceğini düşünüyorum. Ayrıca, şunu söylemeliyim ki, BO nadiren gerçekten kara kutudur ve algoritmaları, bazen çok fazla , belirli bir gerçek dünya problemiyle tam potansiyel olarak çalışmasını sağlamak için sık sık ayarlamanız gerekir .

Genel olarak, genel türev içermeyen optimizasyon yöntemlerinin bir incelemesi için, bu incelemeye [4] göz atabilir ve hızlı yakınsama özelliklerinin iyi olduğu algoritmaları kontrol edebilirsiniz. Örneğin, Çok Düzeyli Koordinat Arama (MCS) genellikle en az bir mahalleye çok hızlı bir şekilde yakınlaşır (elbette her zaman küresel minimum değil). MCS'nin global optimizasyon için düşünülmüş, ancak uygun sınırlama sınırlarını ayarlayarak yerel yapabilirsiniz.

Son olarak, hem pahalı hem de gürültülü olan hedef fonksiyonlar için BO ile ilgileniyorsunuz, bu soruya cevabımı görün .


Referanslar:

1 Brochu ve diğerleri, "Aktif Kullanıcı Modellemesi ve Hiyerarşik Takviye Öğrenme Uygulaması ile Pahalı Maliyet Fonksiyonlarının Bayesian Optimizasyonu Üzerine Bir Öğretici" (2010).

[2] Shahriari ve ark., "İnsanı Döngüden Çıkarma: Bayesian Optimizasyonunun Bir İncelemesi" (2015).

[3] Snoek ve diğerleri, "Makine Öğrenimi Algoritmalarının Pratik Bayesian Optimizasyonu", NIPS (2012).

[4] Rios ve Sahinidis, "Türevsiz optimizasyon: algoritmaların incelenmesi ve yazılım uygulamalarının karşılaştırılması", Global Optimizasyon Dergisi (2013).


4
+1 Bu harika bir cevap. Özellikle, bu kağıtlar bu konuya harika bir ek; Gerçekten, tarif ettiğim genel yöntemin Bayesian Optimizasyonu olduğunu bilmiyordum. Ancak bağlantıların zamanla kötüye gidebileceğinden endişe ediyorum. Gelecekteki kullanıcıların bu makalelere erişebilmesi için daha fazla alıntı bilgisi ekler misiniz?
Monica

Bayesian optimizasyon makaleleri oldukça faydalıdır. Cevap verdiğin için teşekkürler.
Jared Becksfort

1
@ user777: İyi nokta. Sonunda makaleleri kurtarmak için yeterli olması gereken açık bir referans listesi eklendi.
lacerbi

6

Ben algoritmalar kendimi bilmiyorum, ama ben aradığınız optimizasyon algoritması türüdür inanıyoruz türev içermeyen optimizasyon , objektif masraflı veya gürültülü olduğunda kullanılır .

Örneğin, bu makaleye bir göz atın (Björkman, M. & Holmström, K. "Radyal Temel Fonksiyonlar Kullanarak Pahalı Konveks Olmayan Fonksiyonların Global Optimizasyonu." Optimizasyon ve Mühendislik (2000) 1: 373. doi: 10.1023 / A: 1011584207202) Özeti tam olarak istediğin şeyin bu olduğunu gösteriyor.

Rapor, pahalı objektif fonksiyonların global optimizasyonunu, yani birkaç yerel minima olduğunda ve her bir fonksiyon değerinin hesaplanması için oldukça uzun zaman harcadığı zaman, küresel minimumun bulunma problemini ele almaktadır. Bu tür problemler, bir fonksiyon değerinin zaman alan bilgisayar simülasyonu veya optimizasyonunun bir sonucu olabileceği endüstriyel ve finansal uygulamalarda ortaya çıkar. Türevlerin elde edilmesi genellikle zordur ve sunulan algoritmalar bu bilgileri kullanmaz.


2
Lütfen bağlantılı belgeler ve diğer kaynaklar için tam alıntı bilgisini ekleyin. Dayanıklı bir bilgi deposu oluşturmak istiyoruz ve bağlantılar zaman içinde kötüye gitme eğilimindedir.
Monica'yı

Björkman, M. ve Holmström, K. "Radyal Temel Fonksiyonları Kullanarak Pahalı Konveks Olmayan Fonksiyonların Global Optimizasyonu." Optimizasyon ve Mühendislik (2000) 1: 373. doi: 10.1023 / A: 1011584207202
jkdev

4

Yalnız değilsin.

Pahalı değerlendirme sistemleri, sonlu elemanlar yöntemi (FEM) modelleri ve hesaplamalı akışkanlar dinamiği (CFD) modelleri gibi mühendislikte çok yaygındır. Bu hesaplama pahalı modellerinin optimizasyonu çok gereklidir ve zordur çünkü evrimsel algoritmalar çoğu zaman pahalı değerlendirme problemleri için bir seçenek olmayan problemin değerlendirilmesi için onlarca düşünceye ihtiyaç duyar. Neyse ki, bu sorunu çözmek için kullanılabilecek birçok yöntem (algoritma) vardır. Bildiğim kadarıyla, çoğu vekil modellere (metamodels) dayanıyor. Bazıları aşağıda listelenmiştir.

  • Verimli Küresel Optimizasyon (EGO) [1]. EGO algoritması yukarıda belirtilmiştir ve en ünlü vekil tabanlı optimizasyon algoritması olabilir. Kriging modeline ve beklenen iyileştirme fonksiyonu (EI) olarak adlandırılan bir dolgu kriterine dayanmaktadır. EGO algoritmasını içeren R paketleri, DiceOptim ve DiceKriging'dir.
  • Mod takip eden örnekleme (MPS) yöntemi [2]. MPS algoritması RBF modeli üzerine kuruludur ve aday puanları almak için adptif bir örnekleme stratejisi kullanılır. MATLAB kodu yazarlar tarafından http://www.sfu.ca/~gwa5/software.html adresinde yayınlanmaktadır . MPS algoritması, optimum olanı elde etmek için daha fazla değerlendirmeye ihtiyaç duyabilir, ancak kişisel deneyimlerime dayanarak EGO algoritmasından daha karmaşık sorunları çözebilir.
  • Topluluk, Juliane Müller'in [3] modellerini desteklemektedir. Arama yeteneğini geliştirmek için çoklu vekil kullandı. MATLAB araç kutusu MATSuMoTo https://github.com/Piiloblondie/MATSuMoTo adresinde mevcuttur .

Yaz aylarında, bu vekil tabanlı optimizasyon algoritmaları, mümkün olduğunca az değerlendirme kullanarak problemin global optimumunu bulmaya çalışmaktadır. Bu, vekilin (vekillerin) sağladığı bilgileri tam olarak kullanarak elde edilir. Hesaplamalı olarak pahalı sorunların optimizasyonu üzerine incelemeler [4-6] 'dadır.


Referans:

  1. DR Jones, M. Schonlau ve WJ Welch, "Pahalı kara kutu fonksiyonlarının etkin global optimizasyonu" Global Optimization Journal, cilt. 13, sayfa 455-492, 1998.
  2. L. Wang, S. Shan ve GG Wang, "Pahalı kara kutu fonksiyonlarında global optimizasyon için mod sürdürme örnekleme yöntemi", Mühendislik Optimizasyonu, cilt. 36, sayfa 419-438, 2004.
  3. J. Müller, "Hesaplamalı Pahalı Kara Kutu Global Optimizasyon Problemleri için Model Model Algoritmaları", Tampere Teknoloji Üniversitesi, 2012.
  4. GG Wang ve S. Shan, "Mühendislik tasarım optimizasyonunu destekleyen metamodeling tekniklerin gözden geçirilmesi", Mekanik Tasarım Dergisi, cilt. 129, sayfa 370-380, 2007.
  5. AI Forrester ve AJ Keane, “Vekil tabanlı optimizasyonda son gelişmeler,” Havacılık ve Uzay Bilimlerindeki Gelişmeler, vol. 45, sayfa 50-79, 2009.
  6. FAC Viana, TW Simpson, V. Balabanov ve V. Toropov, "Multidisipliner Tasarım Optimizasyonunda Metamodeling: Gerçekten Ne Kadar Geldik?", "AIAA Journal, vol. 52, sayfa 670-690, 2014/04/01 2014.

3

Geçmişte başarılı bir şekilde kullandığım iki basit strateji:

  1. Mümkünse, tam maliyet fonksiyon değerlendirmenize yaklaşan daha basit bir vekil işlevi bulmaya çalışın - tipik olarak simülasyon yerine bir analitik model. Bu basit işlevi optimize edin. Ardından, sonuçta elde ettiğiniz çözümü kesin maliyet fonksiyonunuzla doğrulayın ve hassas şekilde ayarlayın.
  2. Mümkünse, tam olarak bir "delta-maliyet" işlevini değerlendirmenin bir yolunu bulmaya çalışın; bu, degradenin kullanılmasından yaklaşık bir karşılık gelmediği gibi. Yani, tam maliyetin değerlendirildiği ilk 15 boyutlu noktadan, mevcut noktanızın 15 bileşeninden birine (ya da birkaçına) küçük bir değişiklik yaparak maliyetin nasıl değişeceğini saptamanın bir yolunu bulun. Özel durumunuzda varsa , küçük çaplı bir tahrifatın yerelleştirme özelliklerinden yararlanmanız ve yol boyunca bir iç durum değişkenini tanımlamanız, önbelleğe almanız ve güncellemeniz gerekir .

Bu stratejiler çok özeldir, davanıza uygulanabilir olup olmadıklarını bilmiyorum, olmadıklarında özür dilerim. Her ikisi de uygulanabilir (benim kullanım durumlarımda olduğu gibi): "delta-cost" stratejisini daha basit bir analitik modele uygulayın - performans birkaç büyüklük sırasına göre artabilir.

Başka bir strateji, tipik olarak yineleme sayısını azaltma eğiliminde olan ikinci bir sipariş yöntemi kullanmaktır (ancak her yineleme daha karmaşıktır) - örneğin, Levenberg-Marquardt algoritması . Ancak, gradyanı doğrudan ve verimli bir şekilde değerlendirmenin bir yolu olmadığını düşündüğünüzde, bu muhtemelen bu durumda uygun bir seçenek değildir.


3

Diğer insanların da belirttiği gibi, bir taşıyıcı model (aynı zamanda tepki yüzeyi olarak da adlandırılır) güçlü bir yaklaşımdır. Bence, insanların unuttuğu en önemli şey , eğer çok çekirdekli işlemciler kullanıyorsanız , paralel olarak çeşitli işlev değerlendirmeleri yapabileceğinizdir .

Bu koda bakmayı öneririm , basit bir yanıt modeli kullanır, ancak kullanılan çekirdek miktarına eşit bir hız kazandıran çok çekirdekli işlemcilere ölçeklenir. Bu yazıda , yöntemin arkasındaki matematik tanımlanmıştır .


Gazetede yazan ilk yazar olduğunuzu varsayıyorum - muhtemelen öyleyse söylemelisiniz. Makalede, Bayesian optimizasyonu veya diğer vekil yöntemler gibi en gelişmiş yöntemlerle kıyaslama yapılmamaktadır (aslında, herhangi bir kriter sunmamaktadır). Daha fazla bir şey söyleyebilir misin?
lacerbi

Orada kullanılan modelin daha iyi olduğunu söylemiyorum. Ben sadece insanların modelin kalitesi için fazla endişe duyduğunu ve bazen birçok çekirdeğin yer aldığı zaman büyük bir sorun olabilen paralellikten bahsettiğini söylüyorum ..
Paul

Lütfen bağlantılı belgeler ve diğer kaynaklar için tam alıntı bilgisini ekleyin. Dayanıklı bir bilgi deposu oluşturmak istiyoruz ve bağlantılar zaman içinde kötüye gitme eğilimindedir.
Monica'yı

2
Ne kadar terminolojinin topluluğa göre değiştiğinden emin değilim, ama burada genellikle "polinom vekil modeli" ile eşanlamlı olarak kullanılan yanıt yüzeyini (tipik olarak ikinci dereceden) kullanıyorum. Bu yüzden vekil modellemeyi yanıt yüzey modellemenin bir üst kümesi olarak düşünme eğilimindeyim. (Yine de bu yanlış olabilir.)
GeoMatt22

0

Stokastik gradyan inişlerinde, objektif fonksiyon değerlendirmesinde de uygulanabilecek birçok püf noktası vardır. Genel fikir, bir veri alt kümesi kullanarak nesnel işlevi yakınlaştırmaya çalışıyor .

Bu iki gönderideki cevaplarım, stokastik gradyan inişinin neden işe yaradığını tartışıyor: arkasındaki sezgi, verinin alt kümesini kullanarak gradyanı hesaplamak.

Stokastik gradyan inişi standart gradyan inişine kıyasla nasıl zaman kazanır?

Doğrusal regresyon büyük veri ayarı için paralel / dağıtılmış bir şekilde nasıl yapılır?

Aynı numara, amaç işlevi için de geçerlidir.

Axb2AAb

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.