Ne zaman kullanılmalı (He veya Glorot) düzgün init üzerinden normal başlatma? Ve Toplu Normalleştirme ile etkileri nelerdir?


51

Artık Ağın (ResNet) O'nun normal kullanıma hazırlanmasını popüler yaptığını biliyordum. ResNet'te He normal başlatma, ilk katman He üniforma başlatmayı kullanır.

ResNet makalesine ve "Doğrultucuların Derinliklerine Çıkarma" kağıdına baktım.

Ayrıca:

Toplu Normalleştirme, çok daha yüksek öğrenme oranları kullanmamızı ve başlatma konusunda daha az dikkatli olmamızı sağlar.

Toplu Normalleştirme makalesinin özetinde, Toplu Normalizasyonun başlatma konusunda daha az dikkatli olmamızı sağladığı söylenir.

ResNet'in kendisi ne zaman normal init ile tek tip init kullanılacağına özen gösterir (sadece tek tip init ile gitmek yerine).

Yani:

  • Ne zaman kullanılmalı (He veya Glorot) normal kullanıma hazır duruma getirme?
  • Toplu Normalleştirme ile normal dağıtılmış başlatma etkileri nelerdir?

Kenara Notlar:

  • Toplu Normalleştirme ile normal init kullanmak için tekerlemeler, ancak bu gerçeği destekleyen herhangi bir kağıt bulamadım.
  • ResNet'in Herot init'i kullandığını biliyordum, çünkü derin bir ağda daha iyisini yapıyor.
  • Gloit init ile He init arasındakileri anladım .
  • Sorum Normal ve Uniform init hakkında.

Yanıtlar:


34

Normal vs tek tip init aslında oldukça belirsiz görünüyor.

Yalnızca Glorot ve O'nun başlangıç ​​belgelerine bakarsak , ikisi de benzer bir teorik analiz kullanır: başlangıç ​​parametrelerinin çizildiği dağılım için iyi bir değişiklik bulurlar. Bu varyasyon kullanılan aktivasyon fonksiyonuna uyarlanır ve açıkça dağıtım tipini göz önünde bulundurmadan türetilir. Bu nedenle, teorik sonuçları belirlenen varyansın herhangi bir dağıtımı için geçerlidir. Aslında, Glorot gazetesinde tek tip bir dağıtım kullanılır, oysa He gazetesinde seçilen bir gauss dilimidir. He gazetesinde bu seçim için verilen tek "açıklama":

Yakın zamandaki derin CNN'ler çoğunlukla Gaussian dağılımlarından elde edilen rasgele ağırlıklar ile başlatılmaktadır.

AlexNet gazetesine atıfta bulunarak . Gerçekten de, Glorot’un başlatılmasından biraz daha sonra serbest bırakılmıştı, ancak bunun normal bir dağılımın kullanımına dair bir kanıtı yok.

Aslında, Keras konularını takip eden bir tartışmada, biraz da kafaları karışmış gibi görünüyor ve temelde sadece bir tercih meselesi olabilirdi ... Bir tartışmada, üniform ve bir gauss dağılımını kullanarak Glorot başlatmayı karşılaştıran küçük bir kriter var. Sonunda, üniforma kazanır gibi görünüyor ama tam olarak belli değil.

Orijinal ResNet gazetesinde , sadece tüm katmanlar için inatçı bir Gauss kullandıklarını, ilk kat için tek tip bir O init kullandıklarını yazdığı yeri bulamadığımı söylüyor. (belki bunun için bir referans paylaşabilirsiniz?)

Batch Normalization ile gaussian init kullanımına gelince, BN ile optimizasyon işlemi başlatmaya karşı daha az hassastır, bu yüzden sadece söyleyeceğim bir kongredir.


Bunu yanlış anladım. ResNet'in tek tip bir başlatmayı hiç kullanmadığı konusunda haklısın. Düzeltilmiş duruyorum.
rilut

0

1
Lütfen sadece bağlantı göndermekten kaçının. Bir süre sonra herhangi bir bağlantı kesilebilir ve yeni okuyucular cevapları kontrol edemez. Bir bağlantı gönderebilirsiniz, ancak her zaman en önemli bölümün bir özetini de metin olarak ekleyin.
Tasos

@Tasos yorumu çok iyi not edildi. Özetlemek için çok fazla bilgi vardı ve bu yüzden bağlantıyı onun yerine yayınladım ve bağlantıların kopma noktasına geldiğini anladım. Teşekkürler.
rocksyne
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.