Ortalama.
Örnekler: Andrew Ng'in Alex Holehouse tarafından derlenen Coursera'daki Makine Öğrenimi Kursu'na notlar.
Tek tek numuneler nedeniyle degradeleri toplamak çok daha düzgün bir gradyan elde edersiniz. Parti ne kadar büyük olursa, ağırlığın güncellenmesinde kullanılan sonuçtaki gradyan o kadar düzgün olur.
Toplamın toplu iş boyutuna bölünmesi ve ortalama gradyanın alınması aşağıdaki etkiye sahiptir:
- Ağırlığın büyüklüğü orantılı olarak artmaz. Kilo güncellemesine L2 düzenlenmesi eklemek büyük ağırlık değerlerini cezalandırır. Bu genellikle genelleme performansının iyileşmesine yol açar. Ortalamayı almak, özellikle degradeler aynı yöne işaret ediyorsa, ağırlıkların çok fazla büyümesini önleyin.
- Degradenin büyüklüğü, toplu iş boyutundan bağımsızdır. Bu, farklı parti büyüklükleri kullanılarak diğer deneylerden ağırlıkların karşılaştırılmasını sağlar.
- Parti büyüklüğünün etkisini öğrenme oranıyla karşılamak sayısal olarak eşdeğer olabilir, ancak uygulamaya özgü bir öğrenme oranı elde edersiniz. Kullanıcılar kullandığınız parametrelerin ölçeğiyle bağlantı kuramazsa ve denemenizi yeniden üretmede sorun yaşayacaksa, sonuçlarınızı ve deney düzeneğinizi iletmeyi zorlaştırır.
Ortalama alma, daha net karşılaştırılabilirlik sağlar ve degrade büyüklüklerini yığın boyutundan bağımsız tutar. Bir toplu iş boyutu seçmek bazen sahip olduğunuz hesaplama kaynakları tarafından kısıtlanır ve modelinizi değerlendirirken bunun etkisini azaltmak istersiniz.