«optimization» etiketlenmiş sorular

İstatistiklerdeki optimizasyonların herhangi bir kullanımı için bu etiketi kullanın.

8
Newton'un yöntemi neden makine öğrenmesinde yaygın olarak kullanılmıyor?
Bu bir süredir beni rahatsız eden bir şey ve çevrimiçi olarak tatmin edici bir cevap bulamadım, işte burada: Dışbükey optimizasyon üzerine bir dizi dersi inceledikten sonra, Newton'un metodu global olarak en uygun çözümleri bulmak için gradyan inişinden çok daha üstün bir algoritma gibi görünmektedir, çünkü Newton'un metodu çözümü için bir …

3
Toplu gradyan inişine karşı stokastik gradyan inişine karşı
Bazı eğitim seti olduğunu varsayalım için . Ayrıca eğitim setinde bir tür denetimli öğrenme algoritması çalıştırdığımızı varsayalım. Hipotezler, . ve arasındaki "mesafeyi" en aza indiren parametrelerini bulmamız gerekir . Let(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y_{(i)}-h_{\theta}(x_{(i)})^{2} Sonra en aza indiren bulmak istiyoruz …

6
Geri yayılım olmadan bir sinir ağı eğitmek mümkün mü?
Birçok sinir ağı kitabı ve öğreticisi, esas olarak degradeyi hesaplamak için bir araç olan backpropagation algoritmasına çok zaman harcıyor. Diyelim ki ~ 10K parametreleri / ağırlıkları olan bir model inşa ediyoruz. Bazı degrade serbest optimizasyon algoritmaları kullanarak optimizasyonu çalıştırmak mümkün müdür? Sayısal gradyanı hesaplamanın çok yavaş olacağını düşünüyorum, ama Nelder-Mead, …


7
Neden olasılık yerine maksimum log olasılığını optimize etmek
En üst düzeye çıkması gereken bazı olasılıkları formüle edebileceğiniz çoğu makine öğrenme görevinde , bazı parametreler için olasılık yerine günlük olasılık optimize ederiz . Örneğin, en yüksek olabilirlik eğitiminde, genellikle günlük olabilir. Bunu bazı gradyan yöntemleriyle yaparken, bu bir faktör içerir:ppplogplog⁡p\log pθθ\theta ∂logp∂θ=1p⋅∂p∂θ∂log⁡p∂θ=1p⋅∂p∂θ \frac{\partial \log p}{\partial \theta} = \frac{1}{p} \cdot …

7
Maliyet İşlevinin Değerlendirmeyi Yavaşladığında Optimizasyonu
Degrade iniş ve diğer birçok yöntem, maliyet fonksiyonlarında yerel minima bulmak için kullanışlıdır. Maliyet fonksiyonu, her noktada, sayısal veya analitik olarak hızlı bir şekilde değerlendirilebildiği zaman verimli olabilirler. Sıradışı bir durum olarak bana görünen neye sahibim. Maliyet fonksiyonumun her değerlendirmesi pahalıdır. Zemin yüzeyine karşı 3B yüzeyi en aza indiren bir …

5
PCA'nın geometrik bir problemden (mesafeli) nasıl lineer cebir problemine (özvektörlerle) dönüştüğü konusunda sezgisel bir açıklama nedir?
Çeşitli öğreticiler ve (gibi soruların dahil PCA hakkında çok şey okudum bu bir , bu bir , bu bir ve bu bir ). PCA'nın optimize etmeye çalıştığı geometrik problem bana açıktır: PCA, yansıtılan verinin varyansını en üst düzeye çıkaran yeniden yapılandırma (projeksiyon) hatasını en aza indirerek ilk ana bileşeni bulmaya …


1
“Neredeyse tüm yerel minimumların küresel optimuma çok benzer bir fonksiyon değerine sahip olduğunu” anlamak
Bir de son blog yazısı Rong Ge tarafından, o söyleniyordu: Derin ağları öğrenmek de dahil olmak üzere birçok problem için, yerel minimumun hemen hemen tümünün global optimum ile çok benzer bir fonksiyon değerine sahip olduğuna ve bu nedenle yerel bir minimum bulmanın yeterince iyi olduğuna inanılmaktadır. Bu inanç nereden geliyor?

1
Adam stokastik gradyan iniş yöntemi nasıl çalışır?
Sinir ağlarını eğitmek için temel degrade iniş algoritmalarına aşinayım. Adam: ADAM: STOKASTİK OPTİMİZASYON İÇİN BİR YÖNTEM öneren makaleyi okudum . Kesinlikle en azından bazı görüşlere sahip olmama rağmen , kağıt benim için genel olarak çok yüksek görünüyor. Örneğin, bir maliyet fonksiyonu çoğu zaman birçok farklı fonksiyonun toplamıdır, bu nedenle değerini …

1
Yapay Sinir Ağları: kilo değişimi momentum ve kilo kaybı
Momentum , ardışık yinelemelere göre ağırlık değişimlerindeki dalgalanmaları azaltmak için kullanılır:αα\alpha D(a), bir hata fonksiyonuw- ağırlıklarının vektörüη- öğrenme oranı.Δ ωben( t + 1 ) = - η∂E∂wben+ α Δ ωben( t ) ,Δωben(t+1)=-η∂E∂wben+αΔωben(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E( w )E(w)E({\bf w})ww{\bf w}ηη\eta Ağırlık azalması , ağırlık …


1
Glmer neden maksimum olasılığa ulaşmıyor (başka bir genel optimizasyon uygulayarak doğrulandığı gibi)?
Sayısal olarak türetmek MLE s glmM pratikte zordur ve, biliyorum, biz (Örneğin; kaba kuvvet optimizasyonu kullanmamalısınız optimbasit şekilde). Ancak kendi eğitim amacım için, modeli doğru bir şekilde anladığımdan emin olmak için denemek istiyorum (aşağıdaki koda bakın). Her zaman tutarsız sonuçlar aldığımı öğrendim glmer(). Özellikle, MLE'leri glmerbaşlangıç ​​değerleri olarak kullansam bile, …

3
SVM ve lojistik regresyonun karşılaştırılması
Birisi lütfen SVM veya LR'yi ne zaman seçeceğiniz konusunda bana biraz fikir verebilir mi? İlgili amaçların aşağıdaki gibi olduğu ikisinin hiper düzlemini öğrenme optimizasyon kriterleri arasındaki farkın arkasındaki sezgiyi anlamak istiyorum: SVM: En yakın destek vektörleri arasındaki marjı maksimize etmeye çalışın LR: Arka sınıf olasılığını maksimuma çıkarın Hem SVM hem …

5
CV / Bootstrap kullanarak makine öğrenim algoritmalarını çalıştırabilir misiniz?
Bu soru kesin bir cevap alamayacak kadar açık uçlu olabilir, ama umarım değil. SVM, GBM, Rastgele Orman vb. Gibi makine öğrenmesi algoritmaları, genellikle bazı rehberlik kurallarının ötesinde, her bir veri setine ayarlanması gereken bazı ücretsiz parametrelere sahiptir. Bu genellikle, en iyi genelleme hatasını veren parametre setine uyması için bir çeşit …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.