Parti normalizasyonu sigmoidlerin ReLU'lardan daha iyi çalıştığı anlamına mı geliyor?

9

Parti normalizasyonu ve ReLU'ların her ikisi de yok olan gradyan problemine çözümlerdir. Parti normalizasyonu kullanıyorsanız, sigmoid kullanmalı mıyız? Ya da parti normu kullanırken bile onları değerli kılan ReLU'ların özellikleri var mı?

Sanırım toplu işte yapılan normalizasyon sıfır aktivasyon negatif gönderir. Bu, toplu işin "ölü ReLU" sorununu çözdüğü anlamına mı geliyor?

Ancak tanh ve lojistiğin sürekli doğası cazip olmaya devam ediyor. Eğer batchnorm kullanıyorsam, tanh ReLU'dan daha iyi çalışır mı?

Eminim cevap değişir . Peki, deneyiminizde neler çalıştı ve uygulamanızın göze çarpan özellikleri neler?

deep-learning batch-normalization

— generic_user
kaynak

Kağıt aktivasyondan önce BatchNorm kullanılmasını önerse bile, pratikte BN uygulandıktan sonra daha iyi çözeltilerin verimi olduğu bulunmuştur. Bu, şu durumda olması gereken bir şeyi göz ardı etmezsem, ikinci durumda, BN'nin aktivasyon üzerinde hiçbir etkisi yoktur. Ancak elbette, BN'nin ReLU'dan başka bir aktivasyonla ve başka bir aktivasyonla uygulandığında daha iyi çalışıp çalışmayacağı açık bir sorudur. Bence hayır. Çünkü ReLU'nun daha basit bir türev gibi başka avantajları da var. Ama ben de merak ediyorum. Belki birisi bu alanda deneyimler yaşadı.

— oezguensi

1

Bakın, parti normalleşmesinin arkasındaki temel kavram (bir Orta makaleden alıntı) -

Aktivasyonları ayarlayıp ölçeklendirerek giriş katmanımızı normalleştiririz. Örneğin, 0'dan 1'e ve 1'den 1000'e kadar özelliklerimiz olduğunda, öğrenmeyi hızlandırmak için bunları normalleştirmeliyiz. Giriş katmanı bundan yararlanıyorsa, neden her zaman değişen gizli katmanlardaki değerler için de aynı şeyi yapmıyorsunuz ve eğitim hızında 10 kat veya daha fazla iyileşme elde edersiniz.

Makaleyi buradan okuyun.

Toplu normalleştirmeyi kullanmamızın nedeni budur. Şimdi sorunuza gelince, sigmoid'in çıktısının 0 ile 1 arasındaki kısıtlamalar olduğunu ve Toplu normalleşmenin sloganı olduğunu görün. Sigmoid aktivasyonu ile Bach normalizasyonu kullanırsak, sigmoid (0) ile sigmoid (1) arasında, yani 0.5 ila 0.73 ~ arasında sınırlandırılacaktır . Ancak eğer Toplu Normalizasyon ile ReLU kullanırsak, çıktı 0'a 1'e yayılacaktır, bu da nihayetinde bizim için iyi bir şeydir, çıktıyı olabildiğince çeşitlendirmek istiyoruz. Bence ReLU diğer aktivasyonlar arasında en iyi seçim olacak. $frac{1}/{(1+1/e)}$

— deli
kaynak

0

madman, parti normalizasyonu ile ilgili sorunuzu doğru bir şekilde yanıtladı ve ikinci bölümünüze sürekli işlevlerin nasıl çekici göründüğünü ancak relu'nun hepsinden daha iyi olduğunu ve bu ifadenin benim yanımdan olmadığına cevap vereyim. Hinton, "Biz bir aktivasyon fonksiyonu olarak sigmoid kullanan aptal insanlardık ve bu farkındalığın gerçekleşmesi için 30 yıl sürdü, formunu anlamadan nöronunuzun öğrenme durumuna girmesine asla izin vermeyecek, bu yüzden türev ve Kendisini ve diğerlerini şaşkına çevirmiş insanları çağırdı ".Çünkü bir aktivasyon işlevini sadece sürekli olduğu ve nöronunuzu nasıl etkileyeceğine bakmadığı için

Not: Sinir ağları üzerinde çalışıyorsanız, sinir ağlarını büyük ve derin bileşik fonksiyonlar olarak düşünmenizi tavsiye ederim, böylece neyin işe yaradığını ve neden işe yaradığını anlamak için bir sinir ağının nasıl daha yüksek boyutta bir veri manifoldu oluşturduğunu anlamanız gerekir " "manifoldun iyiliğinin fonksiyon seçiminize ve bir fonksiyonun girdi olarak verildiğinde diğer fonksiyonların çıkışını nasıl dönüştürdüğüne bağlıdır.

— Khwaja Wisal
kaynak