Aktivasyon fonksiyonlarını karıştırdığımda ne olur?

ReLU, sigmoid veya $\tanh$ . Aktivasyon fonksiyonlarını karıştırdığımda ne olur?

Kısa süre önce Google'ın (x * sigmoid) Swish etkinleştirme işlevini geliştirdiğini buldum. Aktivasyon fonksiyonunu değiştirerek XOR problemi gibi küçük sinir ağ problemlerinde doğruluğu artırabilir mi?

— JSChang
kaynak

Ortak aktivasyon fonksiyonlarını birleştirme davranışının genel cevabı, kalkülüs yasalarının, özellikle de diferansiyel hesabın uygulanması, sonuçların bir araya getirilmiş fonksiyonun özelliklerinden emin olmak için deney yoluyla elde edilmesi ve ek karmaşıklığın muhtemelen hesaplama süresini artırın. Bu artışa istisna, kombinasyonun hesaplama yükünün, kombinasyonun sağladığı yakınsama avantajlarına kıyasla küçük olması olacaktır.

Bu, etkinleştirme işlevine verilen ad olarak tanımlanan Swish için geçerli gibi görünüyor.

f (x) = x S (β x),

$f(x) = x \, \mathbb{S}(\beta x) \; \text{,}$

nerede $f()$ Swish aktivasyon fonksiyonudur ve $\mathbb{S}$ sigmoid fonksiyonudur. Swish'in kesinlikle aktivasyon fonksiyonlarının bir kombinasyonu olmadığını unutmayın. Hiper-parametre eklenerek oluşur $\beta$ sigmoid fonksiyonunun içinde ve girişin sigmoid fonksiyon sonucuyla çarpılması.

Google tarafından geliştirilmiş gibi görünmüyor. Başlangıçta anonim olarak gönderilen makale (ICLR 2018 makalesi olarak çift kör inceleme için), Aktivasyon Fonksiyonlarını Araştırmak, 2017'de Prajit Ramachandran, Barret Zoph ve Quoc V. Le tarafından yazılmıştır. Bu onların iddiasıdır.

Deneylerimiz, keşfedilen en iyi aktivasyon fonksiyonunun ... Swish, ... bir dizi zorlu veri setinde daha derin modellerde ReLU'dan daha iyi çalışma eğiliminde olduğunu gösteriyor.

Astronomik olarak nadir durumlar, etki doğruluğu, güvenilirlik ve hesaplama verimliliği dışında herhangi bir katmandaki aktivasyon fonksiyonundaki herhangi bir değişiklik olacaktır. Değişimin önemli olup olmadığı genelleştirilemez. Bu nedenle yeni fikirler, geleneksel olarak kullanışlılığı ölçmek için kullanılan veri kümelerine karşı test edilir ¹ .

Etkinleştirme işlevlerini yeni etkinleştirme işlevleri oluşturmak için birleştirmek yaygın değildir. Örneğin, AlexNet bunları birleştirmez. ² . Bununla birlikte, tek bir etkin ağ tasarımının farklı katmanlarında farklı aktivasyon fonksiyonlarının kullanılması çok yaygındır.

Dipnotlar

Bu geleneklerin bir önyargı yaratıp yaratmadığı başka bir sorudur. İsveçli bilgisayar bilimcisi Ivar Hjalmar Jacobson veya 6 Sigma fikirlerinin öncülüğünü yaptığı kullanım teorisi vaka analizini takip edenler, bu testlerin gerçek dünya kullanım vakalarına karşı fonksiyonel testler değil, birim test olduğunu söylerler ve bir anlamı vardır.

[2] Başka bir cevaptan kaynaklanabilecek yanlış anlamaları düzeltmek için, özetlenen yaklaşımın adı AlexNet Alex Krizhevsky, Ilya Sutskever ve University of Geoffrey E. Hinton tarafından Deep Convolutional Sinir Ağları (2012) Toronto, aktivasyon fonksiyonlarının yenilerini oluşturmak için birleştirilmesini içermez. Bunu yazıyorlar.

Son tam bağlı katmanın çıktısı, 1000 sınıf etiketlerinin üzerinde bir dağıtım oluşturan 1000 yollu bir softmax'a beslenir.

...

ReLU doğrusalsızlık, her evrişimsel ve tam bağlı tabakanın çıktısına uygulanır. İç katmanlar saf ReLU ve çıkış katmanı Softmax'tır.

AlexNet yaklaşımının kullandıkları katman serilerinde de konveksiyon çekirdekleri ve havuz katmanları vardır ve tasarım 2012'de ImageNet yarışmasını kazandıklarından beri ortak kullanıma girmiştir. Diğer yaklaşımlar sonraki yarışmalar kazanmıştır.

— Douglas Daseeco
kaynak