2
Parti normalizasyonu sigmoidlerin ReLU'lardan daha iyi çalıştığı anlamına mı geliyor?
Parti normalizasyonu ve ReLU'ların her ikisi de yok olan gradyan problemine çözümlerdir. Parti normalizasyonu kullanıyorsanız, sigmoid kullanmalı mıyız? Ya da parti normu kullanırken bile onları değerli kılan ReLU'ların özellikleri var mı? Sanırım toplu işte yapılan normalizasyon sıfır aktivasyon negatif gönderir. Bu, toplu işin "ölü ReLU" sorununu çözdüğü anlamına mı geliyor? …