Bir ileri beslemeli sinir ağında bağlantı ağırlıkları başlatılırken, öğrenme algoritmasının kırılamayacağı simetrilerden kaçınmak için bunları rastgele başlatmak önemlidir.
Çeşitli yerlerde gördüğüm öneri (örneğin, TensorFlow'un MNIST eğitiminde ), kesik normal dağılımı, standart sapması kullanarak kullanmaktır ; burada , nöron tabakası verildi.
Standart sapma formülünün geri çoğaltılmış gradyanların çok hızlı çözülmemesini veya çoğaltılmamasını sağladığına inanıyorum. Ama neden normal normal dağılımın aksine kesilmiş normal dağılım kullandığımızı bilmiyorum. Nadir aykırı ağırlıklardan kaçınmak mı?