"Optimizasyon ortamı" nı düşünün. Örneğin, yalnızca iki ağırlığa sahip bir ağınız varsa, bu iki ağırlığın tüm kombinasyonlarını bir yüzeye çizebilirsiniz; burada her noktadaki yükseklik, maliyet işlevinizin bunu kullanırsanız döndürdüğü hata miktarını temsil eder (x, y ) iki ağırlığınız olarak koordine edin. En düşük hata seviyesini elde etmek için bu yüzeydeki en düşük noktaya geçmeye çalışıyorsunuz.
Sorun bazen, özellikle iki yerine milyonlarca parametreye sahip ağlarda yüzeyin oldukça çılgın hale gelebilmesidir. İlerlemenin yavaşladığı eyer noktalarında sıkışıp kalabilir ve sonra aniden aşağı doğru bir tepeye fırlatılır.
İşte bunu görselleştirmeye yardımcı olacak bir animasyon
.
Bunun başka nedenleri de olabilir, ancak en çok duyduğunuz şey budur. Bir ağda doymuş aktivasyonlar alan bir grup ünite olabilir (veya relu durumunda, sadece çok az sayıda eğitim girişi tarafından etkinleştirilen bir ünite) ve bir ünite doygunluktan çıktıkça geri kalanını doygunluktan uzaklaştıran bir zincir reaksiyonu başlatır ve ağırlıklar aniden gradyan akışını artırır mı? Böyle bir şeye bakmadım ama başka birinin eklemek için başka nedenleri varsa ilgilenirim.