(Mini) toplu degrade düzgün degradelerin toplamı veya ortalaması? [çiftleme]


15

Mini toplu degrade iyi uyguladığımda, eğitim toplu işindeki tüm örneklerin degradelerinin ortalamasını aldım. Ancak, şimdi en uygun öğrenme oranının çevrimiçi gradyan terbiyesinden çok daha yüksek olduğunu fark ettim. Benim sezgim, bunun nedeni, ortalama gradyanın daha az gürültülü olması ve dolayısıyla daha hızlı izlenebilmesidir. Belki de bir partinin gradyanlarını özetlemek mantıklıdır. Değerler yine de pozitif ve negatif olabilir.

Öğrenme oranı kullanılarak dengelenebilecek sabit bir faktör olduğunu biliyorum. Ancak merak ediyorum, sinir ağlarının sonuçlarından tekrar üretebilmek için bilim adamlarının üzerinde anlaştığı tanım nedir?

Bir toplu işin toplam degradelerini toplu iş büyüklüğüne böler mi?

Yanıtlar:


21

Ortalama.

Örnekler: Andrew Ng'in Alex Holehouse tarafından derlenen Coursera'daki Makine Öğrenimi Kursu'na notlar.

Tek tek numuneler nedeniyle degradeleri toplamak çok daha düzgün bir gradyan elde edersiniz. Parti ne kadar büyük olursa, ağırlığın güncellenmesinde kullanılan sonuçtaki gradyan o kadar düzgün olur.

Toplamın toplu iş boyutuna bölünmesi ve ortalama gradyanın alınması aşağıdaki etkiye sahiptir:

  1. Ağırlığın büyüklüğü orantılı olarak artmaz. Kilo güncellemesine L2 düzenlenmesi eklemek büyük ağırlık değerlerini cezalandırır. Bu genellikle genelleme performansının iyileşmesine yol açar. Ortalamayı almak, özellikle degradeler aynı yöne işaret ediyorsa, ağırlıkların çok fazla büyümesini önleyin.
  2. Degradenin büyüklüğü, toplu iş boyutundan bağımsızdır. Bu, farklı parti büyüklükleri kullanılarak diğer deneylerden ağırlıkların karşılaştırılmasını sağlar.
  3. Parti büyüklüğünün etkisini öğrenme oranıyla karşılamak sayısal olarak eşdeğer olabilir, ancak uygulamaya özgü bir öğrenme oranı elde edersiniz. Kullanıcılar kullandığınız parametrelerin ölçeğiyle bağlantı kuramazsa ve denemenizi yeniden üretmede sorun yaşayacaksa, sonuçlarınızı ve deney düzeneğinizi iletmeyi zorlaştırır.

Ortalama alma, daha net karşılaştırılabilirlik sağlar ve degrade büyüklüklerini yığın boyutundan bağımsız tutar. Bir toplu iş boyutu seçmek bazen sahip olduğunuz hesaplama kaynakları tarafından kısıtlanır ve modelinizi değerlendirirken bunun etkisini azaltmak istersiniz.


Bağlantı şimdi öldü
cdeterman

1
güncellenmiş bağlantı, artık orijinal slaytlara bağlanamıyor, bu yüzden Alex Holehouse tarafından iyi derlenmiş notlar için seçildi .
ypx

Bu öğretici ortalama yerine toplam için gitmek gibi görünüyor .. deeplearning.net/tutorial/gettingstarted.html#regularization
AD
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.