Parti normalizasyonu ve ReLU'ların her ikisi de yok olan gradyan problemine çözümlerdir. Parti normalizasyonu kullanıyorsanız, sigmoid kullanmalı mıyız? Ya da parti normu kullanırken bile onları değerli kılan ReLU'ların özellikleri var mı?
Sanırım toplu işte yapılan normalizasyon sıfır aktivasyon negatif gönderir. Bu, toplu işin "ölü ReLU" sorununu çözdüğü anlamına mı geliyor?
Ancak tanh ve lojistiğin sürekli doğası cazip olmaya devam ediyor. Eğer batchnorm kullanıyorsam, tanh ReLU'dan daha iyi çalışır mı?
Eminim cevap değişir . Peki, deneyiminizde neler çalıştı ve uygulamanızın göze çarpan özellikleri neler?