Artıları / eksileri olan sinir ağlarında kapsamlı aktivasyon fonksiyonları listesi


94

Nöral ağlarda, artıları / eksileriyle birlikte (ve ideal olarak bazılarının başarılı oldukları veya başarılı olamadıkları yayınlara işaretçiler) kapsamlı bir etkinleştirme işlevleri listesi veren herhangi bir referans belgesi var mı?


YSA'lar hakkında yeterince bilgim yok, ancak etkinleştirme işlevleri önemli ölçüde farklı olmadıkça, bunları ayırmak çok zor olacaktır. Benzer bir durumun tartışması için cevabımı burada görebilirsiniz: logit ve probit modeller arasındaki fark .
gung

1
hayır, oldukça büyük bir fark yaratıyor.
Viliami

en.wikipedia.org/wiki/Activation_function iyi bir kaynaktır; dahil olmak üzere birçok başkaını kullanabilirsiniz sin(x), bkz. openreview.net/pdf?id=Sks3zF9eg .
Piotr Migdal

Etkinleştirme İşlevleri ile İlgili Video Eğitimi için, Ziyaret: quickkt.com/tutorials/artificial-intelligence/deep-learning/…
vinay kumar

Yanıtlar:


144

Şimdiye kadar öğrendiklerimin bir listesini burada yapmaya başlayacağım. @ Marcodena'nın dediği gibi, artılar ve eksiler daha zordur çünkü çoğunlukla bu şeyleri denemekten öğrenilen sezgisel deneyimlerdir, ama en azından incinemeyeceklerinin bir listesini yapmayı düşünüyorum.

Öncelikle, notasyonu açıkça tanımlayacağım böylece karışıklık olmaz:

Gösterim

Bu gösterim Neilsen'in kitabından .

Feedforward Sinir Ağı, birbirine bağlı birçok nöron tabakasıdır. Bir girdi alır, daha sonra bu giriş ağ üzerinden "kandırır" ve sinir ağı bir çıkış vektörü döndürür.

Daha teorik çağrı (aka çıkış) aktivasyon j t h nöron i t h tabaka, bir 1 j olan j t h giriş vektörü öğesi.birjbenjthbenthbirj1jth

Sonra bir sonraki katmanın girişini önceki ilişkiyle aşağıdaki ilişki yoluyla ilişkilendirebiliriz:

birjben=σ(Σk(wjkbenbirkben-1)+bjben)

nerede

  • aktivasyon işlevidir,σ
  • gelen ağırlıktır k t h nöron ( I - 1 ) t h katman j t h nöron i t h tabakası,wjkbenkth(ben-1)thjthbenth
  • , i t h katmanındaki j t h nöronununönyargısıdırvebjbenjthbenth
  • aktivasyon değerini temsil eder j t h nöron i t h tabakası.birjbenjthbenth

Bazen geç temsil etmek Σ k ( W ı j kbir i - 1 k ) + b i j , diğer bir deyişle, bir nöronun aktivasyon değeri aktivasyon fonksiyonunu uygulamadan önce.zjbenΣk(wjkbenbirkben-1)+bjben

görüntü tanımını buraya girin

Kısa özlü gösterim için yazabiliriz

birben=σ(wbenxbirben-1+bben)

Bir girdi olarak ileri beslemeli ağda çıkışını hesaplamak için aşağıdaki formülü kullanmak için , set bir 1 = I , ardından hesaplamak bir 2 , bir 3 , ... , bir m , m katmanlarının sayısıdır.benR,nbir1=benbir2,bir3,...,birmm

Aktivasyon İşlevleri

(aşağıda, okunabilirlik için e x yerine yazacağız )tecrübe(x)ex

Kimlik

Ayrıca doğrusal bir aktivasyon işlevi olarak da bilinir.

birjben=σ(zjben)=zjben

Kimlik

Adım

birjben=σ(zjben)={0Eğer zjben<01Eğer zjben>0

Adım

Parçalı doğrusal

Bazı seç ve x max bizim "aralık" dir. Bu aralıktan daha az olan her şey 0 olur ve bu aralıktan daha büyük olan her şey 1 olur. Başka bir şey arasında doğrusal olarak enterpolasyon yapılır. resmen:xminxmaksimum

birjben=σ(zjben)={0Eğer zjben<xminmzjben+bEğer xminzjbenxmaksimum1Eğer zjben>xmaksimum

Nerede

m=1xmaxxmin

ve

b=-mxmin=1-mxmaksimum

Parçalı doğrusal

sigmoid

birjben=σ(zjben)=11+tecrübe(-zjben)

sigmoid

Tamamlayıcı log-log

birjben=σ(zjben)=1-tecrübe(-tecrübe(zjben))

Tamamlayıcı log-log

iki kutuplu

birjben=σ(zjben)={-1Eğer zjben<0   1Eğer zjben>0

iki kutuplu

Bipolar Sigmoid

birjben=σ(zjben)=1-tecrübe(-zjben)1+tecrübe(-zjben)
Bipolar Sigmoid

tanh

birjben=σ(zjben)=tanh(zjben)

tanh

LeCun'un Tanh'ı

birjben=σ(zjben)=1,7159tanh(23zjben)

LeCun'un Tanh'ı

Ölçekli:

LeCun'un Tanh'ı Ölçeklendirildi

Sert Tanh

birjben=σ(zjben)=maksimum(-1,min(1,zjben))

Sert Tanh

Kesin, mutlak

birjben=σ(zjben)= |zjben|

Kesin, mutlak

doğrultucu

Rektifiye Doğrusal Birim (ReLU), Max veya Rampa Fonksiyonu olarak da bilinir .

birjben=σ(zjben)=maksimum(0,zjben)

doğrultucu

ReLU’nun Değişiklikleri

Bunlar, MNIST için gizemli sebeplerden dolayı çok iyi bir performansa sahip gibi görünen bazı aktivasyon fonksiyonları.

birjben=σ(zjben)=maksimum(0,zjben)+marul(zjben)

Coslu cos

Ölçekli:

ReLU cos ölçeklendirildi

birjben=σ(zjben)=maksimum(0,zjben)+günah(zjben)

ReLU günah

Ölçekli:

ReLU günah ölçeklendi

Pürüzsüz Doğrultucu

Pürüzsüz Doğrultulmuş Doğrusal Birim, Pürüzsüz Maks veya Yumuşak artı olarak da bilinir

birjben=σ(zjben)=kütük(1+tecrübe(zjben))

Pürüzsüz Doğrultucu

Logit

birjben=σ(zjben)=kütük(zjben(1-zjben))

Logit

Ölçekli:

Logit Ölçeklenmiş

istatistik ihtimal birimi

birjben=σ(zjben)=2erf-1(2zjben-1)

erf

Alternatif olarak, olarak ifade edilebilir

birjben=σ(zjben)=φ(zjben)

φ

istatistik ihtimal birimi

Ölçekli:

Probit Ölçeklendirilmiş

Kosinüs

Bkz Rastgele Mutfak Lavabo .

birjben=σ(zjben)=marul(zjben)

Kosinüs

Softmax

birjben=tecrübe(zjben)Σktecrübe(zkben)

zjbentecrübe(zjben)zjben0

kütük(birjben)

kütük(birjben)=kütük(tecrübe(zjben)Σktecrübe(zkben))

kütük(birjben)=zjben-kütük(Σktecrübe(zkben))

Burada log-sum-exp hilesini kullanmamız gerekiyor :

Diyelim ki bilgisayar kullanıyoruz:

kütük(e2+e9+e11+e-7+e-2+e5)

Önce üstellerimizi kolaylık sağlamak için büyüklüklerine göre sıralayacağız:

kütük(e11+e9+e5+e2+e-2+e-7)

e11e-11e-11

kütük(e-11e-11(e11+e9+e5+e2+e-2+e-7))

kütük(1e-11(e0+e-2+e-6+e-9+e-13+e-18))

kütük(e11(e0+e-2+e-6+e-9+e-13+e-18))

kütük(e11)+kütük(e0+e-2+e-6+e-9+e-13+e-18)

11+kütük(e0+e-2+e-6+e-9+e-13+e-18)

kütük(e11)e-110

Resmen diyoruz m=maksimum(z1ben,z2ben,z3ben,...)

kütük(Σktecrübe(zkben))=m+kütük(Σktecrübe(zkben-m))

Softmax fonksiyonumuz daha sonra olur:

birjben=tecrübe(kütük(birjben))=tecrübe(zjben-m-kütük(Σktecrübe(zkben-m)))

Aynı zamanda bir sidenote olarak softmax fonksiyonunun türevi:

dσ(zjben)dzjben=σ'(zjben)=σ(zjben)(1-σ(zjben))

maxout

zbirjben

n

birjben=maksimumk[1,n]sjkben

nerede

sjkben=birben-1wjkben+bjkben

WbenbeninciWbenWjbenjben-1

Eğer alt nöronlarımız olacaksa, her nöron için 2B ağırlık matrisine ihtiyacımız olacak, çünkü her bir alt nöron önceki katmandaki her nöron için bir ağırlık içeren bir vektöre ihtiyaç duyacaktır. Bu, anlamına gelir.WbenWjbenjWjkbenkjben-1

bbenbjbenjben

bbenbenbjbenbjkbenkjinci

wjbenbjbenwjkbenbirben-1ben-1bjkben

Radyal Temel Fonksiyon Ağları

Radyal Temel Fonksiyon Ağları, kullanmak yerine Feedforward Sinir Ağlarının bir modifikasyonudur.

birjben=σ(Σk(wjkbenbirkben-1)+bjben)

wjkbenkμjkbenσjkben

Daha sonra için aktivasyon fonksiyonumuzu adlandırırız.ρσjkbenbirjbenzjkben

zjkben=(birben-1-μjkben=Σ(birben-1-μjkben)2

μjkbeninciμjkbenσjkben

zjkben=(birben-1-μjkben)TΣjkben(birben-1-μjkben)

Σjkben

Σjkben=diag(σjkben)

Σjkbenσjkbenbirben-1μjkben

Bunlar gerçekten sadece Mahalanobis mesafesinin "

zjkben=Σ(birben-1-μjkben)2σjkben

σjkbeninciσjkbenσjkben

ΣjkbenΣjkben=diag(σjkben)

Her iki durumda da, mesafe fonksiyonumuz seçildikten sonra, hesaplayabiliriz.birjben

birjben=Σkwjkbenρ(zjkben)

Bu ağlarda, aktivasyon fonksiyonunu sebeplerle uyguladıktan sonra ağırlıklar ile çarpmayı seçerler.

μjkbenσjkbenbirjben

Ayrıca buraya bakınız .

Radyal Temel Fonksiyon Ağ Aktivasyon Fonksiyonları

Gauss

ρ(zjkben)=tecrübe(-12(zjkben)2)

Gauss

Multikuadratik

(x,y)(zjben,0)(x,y)

ρ(zjkben)=(zjkben-x)2+y2

Bu Vikipedi'den . Sınırlandırılmamış ve herhangi bir pozitif değer olabilir, ancak normalleştirmenin bir yolu olup olmadığını merak ediyorum.

y=0x

Multikuadratik

Ters Çok Kademeli

Çevrilmiş hariç, ikinci dereceden aynı:

ρ(zjkben)=1(zjkben-x)2+y2

Ters Çok Kademeli

* SVG kullanarak intmath Grafiklerinden Grafik .


12
CV'ye hoş geldiniz. +6 bu inanılmaz derecede bilgilendirici. Umarım gelecekte daha çok beğeniriz.
gung

1
formun düzgün düzeltilmiş doğrusal fonksiyonu da var kütük(1+tecrübe(x))ve probit.
23’te Memming

Tamam, Sanırım Logit, Probit ve Complementary log-log'u ekledim, ancak bu konular hakkında derin bir anlayışa sahip değilim, bu yüzden onların yazılı halini yanlış anlayabiliyorum. Bu doğru mu?
Phylliida

3
Bu güzel bir referans listesi ile ilginç bir makale olurdu. Örneğin arxiv.org/abs/1505.03654 . Bir makale yazmaya karar verirseniz ve başka referanslar istiyorsanız, benimle temas kurmaktan çekinmeyin.
Hunaphu

9
birisi bunu Elu, Leaky ReLU, PReLU ve RReLU ile güncellemelidir.
Viliami

24

Çok ayrıntılı olmasa da böyle bir liste: http://cs231n.github.io/neural-networks-1/

Yaygın olarak kullanılan aktivasyon fonksiyonları

Her aktivasyon işlevi (veya doğrusal olmayan ) tek bir sayı alır ve üzerinde belirli bir sabit matematiksel işlem gerçekleştirir. Pratikte karşılaşabileceğiniz birkaç aktivasyon işlevi vardır:

görüntü tanımını buraya giringörüntü tanımını buraya girin

Sol: Sigmoid doğrusal olmayan squash, gerçek sayıları [0,1] arasında değişiyor. Sağ: Tanh doğrusal olmayan squash gerçek rakamları [-1,1] arasında değişiyor.

Sigmoid. Sigmoid doğrusal olmayanlık matematiksel bir biçime sahiptirσ(x)=1/(1+e-x)ve soldaki yukarıdaki resimde gösterilmektedir. Bir önceki bölümde değinildiği gibi, gerçek bir sayı alır ve onu 0 ile 1 arasında "squash" eder. Özellikle, büyük negatif sayılar 0 olur ve büyük pozitif sayılar 1 olur. Bir nöronun ateşleme hızı olarak iyi bir yorumu olduğundan: hiç bir şekilde ateşlememekten (0) varsayılan bir maksimum frekansta (1) tam doymuş ateşlemeye kadar. Uygulamada, doğrusal olmayan sigmoid yakın zamanda lehine düşmüştür ve nadiren kullanılmaktadır. İki önemli dezavantajı var:

  • Sigmoids doymuş ve degradeleri öldürür . Sigmoid nöronun çok istenmeyen bir özelliği, nöronun aktivasyonunun 0 veya 1 kuyruğunda doyması durumunda, bu bölgelerdeki gradyanın neredeyse sıfır olmasıdır. Geri yayılma sırasında, bu (yerel) degradenin, bu geçidin tüm hedef için çıktısının gradyanıyla çarpılacağını hatırlayın. Bu nedenle, yerel degrade çok küçükse, degradeyi etkin bir şekilde “öldürür” ve nörondan ağırlığına ve tekrarlayan bir şekilde verisine neredeyse hiçbir sinyal akmaz. Ek olarak, doymayı önlemek için sigmoid nöronların ağırlıkları başlatılırken ekstra bir dikkat gösterilmesi gerekir. Örneğin, ilk ağırlıklar çok büyükse, o zaman çoğu nöron doygun hale gelir ve ağ zar zor öğrenir.
  • Sigmoid çıkışları sıfır merkezli değildir . Bu istenmeyen bir durumdur, çünkü bir Sinir Ağında daha sonraki işlem katmanlarındaki nöronlar (bu konuda daha fazlası) sıfır merkezli olmayan veriler alacaktır. Bunun gradyan iniş sırasındaki dinamikleri üzerinde etkileri vardır, çünkü eğer bir nörona giren veriler her zaman pozitiftir (örneğin;x>0 eleman olarak f=wTx+b)), sonra ağırlıklardaki gradyan w geri yayılma sırasında ya hepsi pozitif ya da tamamen negatif olur (tüm ifadenin gradyanına bağlı olarak) f). Bu, ağırlıklar için gradyan güncellemelerinde istenmeyen zig-zagging dinamiklerini getirebilir. Bununla birlikte, bu gradyanlar bir veri grubuna eklendikten sonra, ağırlıklar için son güncellemenin bu sorunu hafifleten değişken işaretleri olabileceğini unutmayın. Bu nedenle, bu bir rahatsızlıktır, ancak yukarıdaki doymuş aktivasyon problemine kıyasla daha az ciddi sonuçları vardır.

Tanh. Doğrusal olmayan tanh, sağdaki yukarıdaki resimde gösterilmektedir. [-1, 1] aralığına gerçek değerde bir sayı atar. Sigmoid nöron gibi aktivasyonları da doyurucudur, ancak sigmoid nöronun aksine çıkışı sıfır merkezlidir. Bu nedenle pratikte tanh doğrusal olmayanlık daima sigmoid doğrusal olmayanlık için tercih edilir. Ayrıca, tanh nöronunun sadece ölçeklendirilmiş bir sigmoid nöronu, özellikle de aşağıdakilerin tutulduğunu not edin:tanh(x)=2σ(2x)-1.

görüntü tanımını buraya giringörüntü tanımını buraya girin

Sol: Rektifiye Doğrusal Birim (ReLU) aktivasyon fonksiyonu, x <0 olduğunda sıfırdır ve ardından x> 0 olduğunda eğim 1 ile doğrusaldır. Sağ: Krizhevsky ve ark. (pdf) Tanlu birimine oranla ReLU birimiyle birlikte 6 kat iyileşme gösteren kağıt.

Relu. Rectified Linear Unit son birkaç yılda çok popüler oldu. Fonksiyonu hesaplarf(x)=maksimum(0,x). Başka bir deyişle, aktivasyon basitçe sıfırda eşiklenir (soldaki yukarıdaki resme bakın). ReLU'ları kullanmanın birkaç avantajı ve dezavantajı vardır:

  • (+) Sigmoid / tanh fonksiyonlarına kıyasla Stokastik gradyan inişinin yakınsamasını büyük ölçüde hızlandırdığı (örneğin Krizhevsky ve diğerlerinde 6'nın bir faktörü ). Bunun doğrusal, doygun olmayan formundan kaynaklandığı iddia edilmektedir.
  • (+) Pahalı operasyonları (üstel vb.) İçeren tanh / sigmoid nöronlarla karşılaştırıldığında, ReLU basitçe bir aktivasyon matrisini sıfıra eşikleyerek uygulanabilir.
  • (-) Maalesef ReLU birimleri eğitim sırasında kırılgan olabilir ve "ölebilir". Örneğin, bir ReLU nöronundan akan büyük bir gradyan, ağırlıkların, nöronun bir daha asla bir veri noktasında tekrar aktive olmayacağı şekilde güncellenmesine neden olabilir. Bu durumda, ünite boyunca akan gradyan o noktadan itibaren sonsuza dek sıfır olacaktır. Yani, ReLU birimleri eğitim sırasında geri dönüşümsüz biçimde ölebilir çünkü veri manifoldundan çıkarılabilirler. Örneğin, öğrenme hızı çok yüksek ayarlanmışsa, ağınızın% 40'ının "ölü" (yani tüm eğitim veri kümesinde asla aktive olmayan nöronlar) olabileceğini görebilirsiniz. Öğrenme hızının uygun bir şekilde ayarlanması ile bu daha az sorun yaratır.

Sızdıran ReLU. Sızdıran ReLU'lar, "ölen ReLU" sorununu çözme girişimlerinden biridir. X <0 olduğunda, fonksiyon sıfır olmak yerine, sızdıran bir ReLU bunun yerine küçük bir negatif eğime sahip olacaktır (0,01, ya da öylesine). Yani, fonksiyon hesaplarf(x)=1(x<0)(αx)+1(x> =0)(x) nerede αküçük bir sabittir. Bazı insanlar bu aktivasyon işleviyle başarıyı rapor eder, ancak sonuçlar her zaman tutarlı değildir. Negatif bölgedeki eğim, Karaning He ve diğ., 2015 tarafından Derinlemesine Redresörlerin Doldurulması bölümünde tanıtılan PReLU nöronlarında da görüldüğü gibi her nöronun bir parametresi haline getirilebilir . Bununla birlikte, görevler arasındaki faydaların tutarlılığı şu anda belirsiz.

görüntü tanımını buraya girin

Maxout . İşlevsel bir biçime sahip olmayan diğer tip üniteler önerilmiştir.f(wTx+b)nokta ürününde, ağırlıklar ve veriler arasındaki doğrusal olmayan bir uygulamanın uygulandığı yer. Nispeten popüler seçeneklerden biri , ReLU ve sızdıran versiyonunu genelleyen Maxout nöronudur (yakın zamanda Goodfellow ve arkadaşları tarafından tanıtılmıştır ). Maxout nöron işlevi hesaplarmaksimum(w1Tx+b1,w2Tx+b2). Hem ReLU'nun hem de Leaky ReLU'nun bu formun özel bir örneği olduğuna dikkat edin (örneğin;w1,b1=0). Bu nedenle, Maxout nöronu, bir ReLU ünitesinin (doğrusal çalışma rejimi, doygunluk yok) tüm faydalarından yararlanır ve dezavantajları yoktur (ölen ReLU). Bununla birlikte, ReLU nöronlarının aksine, her bir nöron için parametre sayısını iki katına çıkarır, bu da yüksek bir toplam parametre sayısına yol açar.

Bu, en yaygın nöron tipleri ve bunların aktivasyon fonksiyonları hakkındaki tartışmamıza varmaktadır. Son bir yorum olarak, bununla ilgili temel bir sorun olmasa da, aynı ağdaki farklı nöron türlerini karıştırmak ve eşleştirmek çok nadir görülür.

TLDR : " Hangi nöron tipini kullanmalıyım? " Bu sizi ilgilendiriyorsa, Leaky ReLU veya Maxout'u deneyin. Asla sigmoid kullanmayın. Tanh'ı deneyin, ancak ReLU / Maxout'tan daha kötü çalışmasını bekleyin.


Lisans:


MİT Lisansı (MIT)

Telif Hakkı (c) 2015 Andrej Karpathy

Bu yazılımın ve ilgili dokümantasyon dosyalarının ("Yazılım") bir kopyasını alan herhangi bir kişiye, Yazılım'da, kullanım, kopyalama, değiştirme, birleştirme haklarını sınırlama olmaksızın da dahil olmak üzere, herhangi bir kısıtlama olmaksızın kullanımına izin verilir. Yazılımın bir kopyasını yayınlamak, dağıtmak, alt lisans vermek ve / veya satmak ve Yazılımın bu belgeyi sağladığı kişilerin, aşağıdaki koşullara tabi olarak kullanımına izin vermek:

Yukarıdaki telif hakkı bildirimi ve bu izin bildirimi, Yazılımın tüm kopyalarına veya önemli bölümlerine dahil edilecektir.

YAZILIM, TİCARİ AMAÇ VE ZIMNİ GİDERME GARANTİSİNE SINIRLANMAMIŞTIR, HERHANGİ BİR TÜR, AÇIK VEYA UYGULANMASI GARANTİSİ YOKTUR. ETKİLİ OLMAYAN YETKİLİ VEYA TELİF SAHİPLİ TUTUCULAR, SÖZLEŞME, TORT VEYA DİĞER SORUMLULUK, YANLIŞTAN VEYA KULLANIM AŞINDAN DOĞRU, TORT VEYA DİĞER SORUMLULUKLARA KARŞI KABUL EDİLİR YAZILIM.*

Diğer bağlantılar:


10

Artıları ve eksileri olan bir liste olduğunu sanmıyorum. Aktivasyon fonksiyonları son derece uygulama bağlıdır ve onlar (sinirsel ağın mimarisi de bağlıdır burada sigmoid bir benzer iki SoftMax fonksiyonlarının uygulama görmek örneğin).

Fonksiyonların genel davranışı ile ilgili bazı çalışmalar bulabilirsiniz, ancak bence asla tanımlanmış ve kesin bir listeye sahip olamayacağınızı düşünüyorum.

Ben hala bir öğrenciyim, o yüzden şu ana kadar bildiklerime işaret ediyorum:

  • Burada tanh ve sigmoidlerin backpropagation davranışları hakkında bazı düşünceler bulacaksınız. Tanh daha genel, ancak sigmoidler ... (her zaman bir "ama" olacak)
  • Olarak derin Seyrek Doğrultucu sinir ağları Glorot Xavier et al, redresörden birimleri daha biyolojik olarak makul ve diğerlerinden daha iyi performans gösterdiğini belirtmek (sigmoid / tanh)

Bu doğru cevap. Bir liste yapabilir, ancak artılar ve eksiler tamamen verilere bağlıdır. Aslında, öğrenme aktivasyon fonksiyonlarını teoride çok daha makul. Çok fazla araştırmaya odaklanmamasının nedeni sigmoidin "sadece işe yaraması". Sonunda, tek kazancınız, çoğu zaman önemsiz olan yakınsama hızıdır
runDOSrun

4

Sadece Danielle’in büyük cevabında tamlık olması adına, rastgele birinin ağırlıkları ve / veya aktivasyon türlerine 'tekerleği' çevirdiği diğer paradigmalar var: sıvı durum makineleri , aşırı öğrenme makineleri ve eko durum ağları .

Bu mimarileri düşünmenin bir yolu: rezervuar, SVM'lerde olduğu gibi bir tür çekirdek veya basit bir FFNN'de verinin bazı hiper uzaya yansıtıldığı büyük bir gizli katmandır. Gerçek bir öğrenme yoktur, tatmin edici bir çözüme ulaşılana kadar rezervuar yeniden üretilir.

Ayrıca bu güzel cevabı gör .


2

Son aktivasyon fonksiyonlarını inceleyen bir makalede bulunabilir.

Chigozie Enyinna Nwankpa, Winifred Ijomah, Anthony Gachagan ve Stephen Marshall " Etkinleştirme İşlevleri: Derin Öğrenme Uygulama ve Araştırmalarındaki Trendlerin Karşılaştırılması "

Derin sinir ağları bugüne kadar geliştirilen daha derin öğrenme (DL) mimarileri ile gerçek dünyadaki karmaşık sorunları çözmek için ortaya çıkan çeşitli alanlarda başarıyla kullanılmıştır. Bu son teknoloji performansları elde etmek için DL mimarileri, gizli katmanlar ve herhangi bir DL mimarisinin çıktı katmanları arasında farklı hesaplamalar yapmak için etkinleştirme işlevlerini (AF'ler) kullanır. Bu makale, derin öğrenme uygulamalarında kullanılan mevcut AF'ler hakkında bir anket sunar ve derin öğrenme uygulamaları için aktivasyon fonksiyonlarının kullanımındaki son eğilimleri vurgular. Bu yazının yenilikçiliği, DL'de kullanılan AF'lerin çoğunluğunu derlemesi ve bu fonksiyonların uygulamalarında ve son teknoloji araştırma sonuçlarına karşı pratik derin öğrenme dağıtımlarında kullanılmasındaki mevcut eğilimlerin ana hatlarını çizmesidir. Bu derleme, konuşlandırmaya hazır herhangi bir uygulama için en uygun ve uygun aktivasyon işlevinin seçiminde etkili kararlar alınmasına yardımcı olacaktır. Bu makale zamanındadır, çünkü AF ile ilgili çoğu araştırma makalesi benzer çalışmaları ve sonuçları vurgulamaktadır;

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.