«gradient-descent» etiketlenmiş sorular

Degrade iniş birinci dereceden yinelemeli bir optimizasyon algoritmasıdır. Degrade iniş kullanarak bir işlevin yerel bir minimumunu bulmak için, geçerli noktadaki işlevin degradesinin (veya yaklaşık degradenin) negatifiyle orantılı adımlar atılır. Stokastik gradyan iniş için [sgd] etiketi de vardır.

8
Newton'un yöntemi neden makine öğrenmesinde yaygın olarak kullanılmıyor?
Bu bir süredir beni rahatsız eden bir şey ve çevrimiçi olarak tatmin edici bir cevap bulamadım, işte burada: Dışbükey optimizasyon üzerine bir dizi dersi inceledikten sonra, Newton'un metodu global olarak en uygun çözümleri bulmak için gradyan inişinden çok daha üstün bir algoritma gibi görünmektedir, çünkü Newton'un metodu çözümü için bir …

3
Toplu gradyan inişine karşı stokastik gradyan inişine karşı
Bazı eğitim seti olduğunu varsayalım için . Ayrıca eğitim setinde bir tür denetimli öğrenme algoritması çalıştırdığımızı varsayalım. Hipotezler, . ve arasındaki "mesafeyi" en aza indiren parametrelerini bulmamız gerekir . Let(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y_{(i)}-h_{\theta}(x_{(i)})^{2} Sonra en aza indiren bulmak istiyoruz …

6
Kapalı formlu bir matematik çözümü olduğunda doğrusal regresyon için neden gradyan inişini kullanmalısınız?
Makine Öğrenimi derslerini çevrimiçi olarak alıyorum ve hipotezdeki en uygun değerleri hesaplamak için Gradient Descent'i öğrendim. h(x) = B0 + B1X değerleri aşağıdaki formüle göre kolayca bulabiliyorsak neden Gradient Descent kullanmamız gerekiyor? Bu da ileri ve kolay görünüyor. ancak GD'nin değeri elde etmek için çoklu yinelemeye ihtiyacı var. B1 = …

2
Kapalı formda regresyon parametrelerinin gradient inişle çözülmesi
Andrew Ng'nin makine öğrenim kursunda , doğrusal regresyon ve lojistik regresyon tanıtıyor ve gradyan iniş ve Newton yöntemini kullanarak model parametrelerine nasıl uyulacağını gösteriyor. Degrade inişinin bazı makine öğrenmesi uygulamalarında (örneğin backpropogation) faydalı olabileceğini biliyorum, ancak daha genel bir durumda, parametreleri kapalı formda çözememeniz için herhangi bir neden var - …

3
Sinir ağı araştırmacıları neden dönemleri önemsiyorlar?
Stokastik gradyan inişindeki bir çağ, verilerden tek bir geçiş olarak tanımlanır. Her SGD minibatch için, örnekleri çizilir, gradyan hesaplanır ve parametreler güncellenir. Çağ ayarında, numuneler değiştirilmeden çizilir.kkk Ancak bu gereksiz görünüyor. Neden olarak her SGD minibatch çekemez rastgele her tekrarda tüm veri kümesinden çizer? Çok sayıda dönemin üzerinde, numunelerinin az …

7
Maliyet İşlevinin Değerlendirmeyi Yavaşladığında Optimizasyonu
Degrade iniş ve diğer birçok yöntem, maliyet fonksiyonlarında yerel minima bulmak için kullanışlıdır. Maliyet fonksiyonu, her noktada, sayısal veya analitik olarak hızlı bir şekilde değerlendirilebildiği zaman verimli olabilirler. Sıradışı bir durum olarak bana görünen neye sahibim. Maliyet fonksiyonumun her değerlendirmesi pahalıdır. Zemin yüzeyine karşı 3B yüzeyi en aza indiren bir …

5
Üstel çürüme ile Adam optimizer
Tensorflow kodlarının çoğunda, Adam Optimizer’ın sabit bir Öğrenme Hızı 1e-4(yani 0.0001) ile kullanıldığını gördüm . Kod genellikle aşağıdakilere bakar: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = tf.initialize_all_variables() # …



1
GradientDescentOptimizer ve AdamOptimizer (TensorFlow) arasındaki fark nedir?
Basit yazdım MLP içinde TensorFlow bir modelleme olduğu XOR-Gate . İçin böylece: input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] aşağıdakileri üretmelidir: output_data = [[0.], [1.], [1.], [0.]] Ağın bir giriş katmanı, gizli bir katmanı ve her birinin 2, 5 ve 1 nöronlu bir çıkış katmanı vardır. Şu …

1
Adam stokastik gradyan iniş yöntemi nasıl çalışır?
Sinir ağlarını eğitmek için temel degrade iniş algoritmalarına aşinayım. Adam: ADAM: STOKASTİK OPTİMİZASYON İÇİN BİR YÖNTEM öneren makaleyi okudum . Kesinlikle en azından bazı görüşlere sahip olmama rağmen , kağıt benim için genel olarak çok yüksek görünüyor. Örneğin, bir maliyet fonksiyonu çoğu zaman birçok farklı fonksiyonun toplamıdır, bu nedenle değerini …

1
Yapay Sinir Ağları: kilo değişimi momentum ve kilo kaybı
Momentum , ardışık yinelemelere göre ağırlık değişimlerindeki dalgalanmaları azaltmak için kullanılır:αα\alpha D(a), bir hata fonksiyonuw- ağırlıklarının vektörüη- öğrenme oranı.Δ ωben( t + 1 ) = - η∂E∂wben+ α Δ ωben( t ) ,Δωben(t+1)=-η∂E∂wben+αΔωben(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E( w )E(w)E({\bf w})ww{\bf w}ηη\eta Ağırlık azalması , ağırlık …

4
Doğrusal aktivasyon fonksiyonu, sinir ağlarında kaybolan gradyan problemini nasıl çözer?
Rektifiye doğrusal ünite (ReLU) sinir ağları için kaybolma degrade sorununa bir çözüm olarak çeşitli yerlerde övgüde bulundu . Yani aktivasyon fonksiyonu olarak max (0, x) kullanılır. Aktivasyon pozitif olduğunda, bunun, sigmoid aktivasyon fonksiyonundan daha iyi olduğu açıktır, çünkü türetilmesi, büyük x için keyfi olarak küçük bir değer yerine her zaman …

2
Stokastik gradyan inişini kim icat etti?
Degrade iniş ve Stokastik degrade iniş tarihini anlamaya çalışıyorum . Degrade iniş icat edildi Cauchy 1847 yılında dökmek Générale Methode la çözünürlüklü des systèmes d'denklemler simultanées . pp. 536–538 Daha fazla bilgi için buraya bakın . O zamandan beri gradyan iniş yöntemleri gelişmeye devam etti ve tarihlerini bilmiyorum. Özellikle stokastik …

2
Doğrusal bir regresyon modelinin katsayılarını bulmak için gradyan inişine ihtiyacımız var mı?
Coursera materyalini kullanarak makine öğrenmeyi öğrenmeye çalışıyordum . Bu derste Andrew Ng, hata fonksiyonunu (maliyet fonksiyonu) en aza indirecek doğrusal regresyon modelinin katsayılarını bulmak için gradyan iniş algoritması kullanır. Doğrusal regresyon için degrade inişe ihtiyacımız var mı? Görünüşe göre hata fonksiyonunu analitik olarak farklılaştırabilir ve katsayıları çözmek için sıfıra ayarlayabilirim; …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.