ML (makine öğrenimi) algoritmalarında gradyan iniş optimizasyonunu anlamaya çalışıyorum. Bir maliyet fonksiyonu olduğunu anlıyorum - amacın hatayı en aza indirmektir . Ağırlıkları senaryoda en az hata vermek için optimize edilmektedir ve kısmi türevleri kullanılmaktadır, her iki değiştirir ve az sayıda iterasyon içinde, her bir aşamada ya da bir kombinasyonu (örneğin, bir değiştirilir ve zaman devamı, türev başlar herhangi bir hata azaltmadığını )? Uygulama doğrusal bir regresyon modeli, bir lojistik regresyon modeli veya yükseltme algoritmaları olabilir.
w1
, azalma gibi farklı kombinasyonları deneyebilirw2
ve sadece algoritmanın küresel minima'yı her zaman vermeyeceğini doğrulamak için?