«gradient-descent» etiketlenmiş sorular

Degrade iniş birinci dereceden yinelemeli bir optimizasyon algoritmasıdır. Degrade iniş kullanarak bir işlevin yerel bir minimumunu bulmak için, geçerli noktadaki işlevin degradesinin (veya yaklaşık degradenin) negatifiyle orantılı adımlar atılır. Stokastik gradyan iniş için [sgd] etiketi de vardır.

5
K-Ortalamaları neden küresel minimum değeri vermiyor?
K-ortalamaları algoritmasının genel bir minimum değere değil, yalnızca yerel bir minimum değere yaklaştığını okudum. Bu neden? Mantıksal olarak başlatmanın son kümelemeyi nasıl etkileyebileceğini düşünebilirim ve en uygun olmayan kümeleme olasılığı vardır, ancak bunu matematiksel olarak kanıtlayacak hiçbir şey bulamadım. Ayrıca, k-neden yinelemeli bir süreçtir? Amaç fonksiyonunu centroidlerle kısmen ayırt edemeyiz, …

1
Stokastik degrade iniş, standart degrade inişe kıyasla zamandan nasıl tasarruf edebilir?
Standart Degrade İniş, tüm eğitim veri kümesi için degradeyi hesaplar. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Önceden tanımlanmış bir dönem sayısı için, ilk olarak parametre vektör parametrelerimizle tüm veri kümesi için kayıp fonksiyonunun gradient vektörü ağırlıkları_gradını hesaplıyoruz. Stokastik Degrade İniş, …


3
Online ve batch Learning arasındaki fark nedir?
Şu anda John Duchi ve Yoram Singer'ın Forward-Backward Splitting'i kullanarak Efficient Online ve Batch Learning makalesini okudum . 'Çevrimiçi' ve 'Toplu' terimlerinin kullanımıyla ilgili çok kafam karıştı. 'Çevrimiçi' ifadesinin, eğitim verilerinin bir birimini işledikten sonra ağırlık parametrelerini güncellediğimizi düşündüm. Ardından egzersiz verilerinin bir sonraki birimini işlemek için yeni ağırlık parametrelerini …

1
Perceptron Kuralı ile Gradyan İniş ve Stokastik Gradyan İniş uygulaması hakkında açıklama
Farklı Perceptron uygulamaları ile biraz denedim ve "iterasyonları" doğru anladığımdan emin olmak istiyorum. Rosenblatt'ın orijinal algılayıcı kuralı Anladığım kadarıyla, Rosenblatt'ın klasik perceptron algoritmasında, ağırlıklar aynı anda her eğitim örneğinden sonra güncellenir. Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i burada etaetaeta burada öğrenme kuralıdır. Hem hedef hem de gerçek eşik değerlerdir …

1
(Mini) toplu degrade düzgün degradelerin toplamı veya ortalaması? [çiftleme]
Bu sorunun zaten bir cevabı var : SGD'de ağırlık güncellemeleri için degradelerin ortalaması veya toplamı (1 cevap) 17 gün önce kapalı . Mini toplu degrade iyi uyguladığımda, eğitim toplu işindeki tüm örneklerin degradelerinin ortalamasını aldım. Ancak, şimdi en uygun öğrenme oranının çevrimiçi gradyan terbiyesinden çok daha yüksek olduğunu fark ettim. …

1
CNN'ler yok olan gradyan problemini nasıl önler
Konvansiyonel sinir ağları hakkında çok şey okudum ve yok olan gradyan probleminden nasıl kaçındıklarını merak ediyordum. Derin inanç ağlarının tek seviyeli otomatik kodlayıcıları veya diğer önceden eğitilmiş sığ ağları biriktirdiğini biliyorum ve bu nedenle bu sorunu önleyebilirim ama CNN'lerde nasıl önlendiğini bilmiyorum. Wikipedia'ya göre : "yukarıda belirtilen" kaybolan gradyan sorununa …

1
Sinir ağları dışındaki şeyler için degrade olarak uygun olmayan öğrenme oranlarını neden kullanmıyoruz?
Derin öğrenme literatürü, degrade inişte sabit olmayan öğrenme oranları kullanarak akıllı hilelerle doludur. Üstel bozunma, RMSprop, Adagrad gibi şeylerin uygulanması kolaydır ve her derin öğrenme paketinde mevcuttur, ancak sinir ağlarının dışında var gibi görünmektedir. Bunun için herhangi bir nedeni var mı? Eğer insanlar umursamıyorlarsa, sinir ağlarının dışına bakmamıza gerek yok …

4
Bir eyer noktasında nasıl sıkışabilir?
Şu anda, mini-toplu degrade inişinin bir eyer noktasında nasıl sıkışabileceğinden biraz şaşkınım. Çözüm, bunu alamayacağım kadar önemsiz olabilir. Her çağ bir yeni örnek almak ve maliyet fonksiyonu her parti, sadece statik yani, yeni bir parti dayalı yeni hatayı hesaplar hangi degrade da her bir mini seri için değiştirmek .. ama …

1
Bağlamsal haydutlar için maliyet fonksiyonları
Bağlamsal bir haydut sorunu çözmek için vowpal wabbit kullanıyorum . Kullanıcılara reklamları gösteriyorum ve reklamın gösterildiği bağlam hakkında oldukça fazla bilgiye sahibim (ör. Kullanıcının kim olduğu, hangi sitede olduğu vb.). Bu, John Langford tarafından tarif edildiği gibi oldukça klasik bir bağlamsal eşkıya sorunu gibi görünüyor . Benim durumumda, bir kullanıcının …

2
Gradyan iniş vs lm () fonksiyonu R?
Andrew Ng'in Stanford'daki ücretsiz çevrimiçi makine öğrenimi kursundaki videolardan geçiyorum . Degrade İnişi, bunu yapmak için Octave'de lineer regresyon ve yazma fonksiyonlarını çözmek için bir algoritma olarak tartışır. Muhtemelen R'de bu işlevleri yeniden yazabilirim, ama sorum şu ki, lm () işlevi zaten doğrusal regresyonun çıktısını vermiyor mu? Neden kendi degrade …

5
Degrade inişi büyük veri kümesi için neden yetersiz?
Diyelim ki veri setimizde 1 milyon örnek var, yani ve bu veri setinde lojistik veya doğrusal bir regresyon gerçekleştirmek için degrade iniş kullanmak istiyoruz.x1, … , X106x1,…,x106x_1, \ldots, x_{10^6} Verimsiz hale getiren degrade iniş yöntemiyle nedir? zamanında degrade iniş adımının aşağıdakiler tarafından verildiğini hatırlayın :ttt wt + 1= wt+ ηt∇ …

1
Pratikte “Saddle-Free Newton” iniş algoritması kullanılmıyor?
Son zamanlarda Yann Dauphin ve ark. Saddle-Free Newton adında ilginç bir iniş algoritması getirdikleri, yüksek boyutlu dışbükey olmayan optimizasyonda eyer noktası problemini tanımlama ve saldırı , bu da sinir ağı optimizasyonu için tam olarak uyarlanmış gibi görünür ve eyer noktalarında sıkışmaktan muzdarip olmamalıdır vanilya SGD gibi birinci dereceden yöntemler gibi. …

2
Hata dağılımı için Poisson, Gamma veya Tweedie dağılımlarını kullanarak Python / scikit-learn'daki GLM'yi değerlendirmek mümkün mü?
Bazı Python ve Sklearn öğrenmeye çalışıyorum, ancak çalışmalarım için Poisson, Gamma ve özellikle Tweedie ailelerinden hata dağılımlarını kullanan regresyonları çalıştırmam gerekiyor. Onlarla ilgili belgelerde hiçbir şey görmüyorum, ancak R dağıtımının çeşitli kısımlarındalar, bu yüzden herhangi birinin Python için herhangi bir yerde uygulama görüp görmediğini merak ediyordum. Beni Tweedie dağıtımının SGD …

1
Stokastik degrade iniş (SGD) için uygun bir minibatch boyutu seçme
Stokastik degrade iniş yaparken minibatch boyutu seçimini inceleyen literatür var mı? Deneyimlerime göre, genellikle çapraz doğrulama veya değişen başparmak kuralları kullanılarak bulunan ampirik bir seçim gibi görünüyor. Doğrulama hatası azaldıkça minibatch boyutunu yavaşça arttırmak iyi bir fikir mi? Bunun genelleme hatası üzerinde ne gibi etkileri olur? Son derece küçük bir …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.