Sinir ağlarında aktivasyon fonksiyonunun amacı nedir?

18

Sinir ağlarındaki aktivasyon fonksiyonlarının doğrusal olmamaya yardımcı olduğu söylenir .

Ne anlama geliyor?
Bu bağlamda doğrusal olmama ne anlama geliyor?
Bu doğrusal olmama durumu nasıl yardımcı olur?
Aktivasyon fonksiyonlarının başka amaçları var mı?

neural-networks deep-learning

— Mohsin Bukhari
kaynak

14

Doğrusal olmayan aktivasyon fonksiyonları tarafından sağlanan fonksiyonların neredeyse tamamı diğer cevaplar tarafından verilmektedir. Bunları özetleyeyim:

İlk olarak, doğrusal olmama ne demektir? Belirli bir değişkene / değişkenlere göre doğrusal olmayan bir şey (bu durumda bir işlev) anlamına gelir, yani ' $f(c1.x1 + c2.x2...cn.xn + b) != c1.f(x1) + c2.f(x2) ... cn.f(xn) + b.$
Bu bağlamda doğrusal olmama ne anlama geliyor? Bu demektir ki Sinir Ağı can başarıyla yaklaşık işlevler (yukarı belirli bir hata kullanıcı tarafından karar) doğrusallık takip etmiyor ya da başarıyla lineer olmayan bir karar sınırı bölünür fonksiyonun sınıfını tahmin edebilirsiniz. $e$
Neden yardımcı oluyor? Doğrusallığı doğrudan takip eden herhangi bir fiziksel dünya olgusunu bulamayacağınızı düşünüyorum. Yani doğrusal olmayan bir fenomene yaklaşabilen doğrusal olmayan bir fonksiyona ihtiyacınız var. Ayrıca iyi bir sezgi, herhangi bir karar sınırı olabilir veya bir fonksiyon, girdi özelliklerinin polinom kombinasyonlarının doğrusal bir kombinasyonudur (sonuçta doğrusal olmayan).
Aktivasyon fonksiyonunun amaçları? Doğrusal olmayanlığı tanıtmanın yanı sıra her aktivasyon fonksiyonunun kendine özgü özellikleri vardır.

Sigmoid $\frac{1} {(1 + e ^ {-(w1*x1...wn*xn + b)})}$

Bu en yaygın aktivasyon fonksiyonlarından biridir ve her yerde monoton olarak artmaktadır. Bu genellikle son çıkış düğümünde, 0 ile 1 arasındaki değerleri ezdiğinden kullanılır (çıkış olması gerekiyorsa 0veya 1). 0,5'in üzerinde, 0,5'in 1altındayken 0, farklı bir eşik (değil 0.5) ayarlanmış olsa da dikkate alınır . Ana avantajı, farklılaşmasının kolay olması ve zaten hesaplanmış değerleri kullanması ve at nalı yengeç nöronlarının nöronlarında bu aktivasyon fonksiyonuna sahip olmasıdır.

Tanh $\frac{e ^ {(w1*x1...wn*xn + b)} - e ^ {-(w1*x1...wn*xn + b)})}{(e ^ { (w1*x1...wn*xn + b)} + e ^ {-(w1*x1...wn*xn + b)}}$

Bu, sigmoid aktivasyon fonksiyonuna göre bir avantajı vardır, çünkü çıktıyı sonraki katmanlar üzerinde daha iyi öğrenme etkisi olan 0'a ortalama eğilimindedir (bir özellik normalleştirici görevi görür). Güzel bir açıklama burada . Negatif ve pozitif çıktı değerleri sırasıyla 0ve 1olarak kabul edilebilir . Çoğunlukla RNN'lerde kullanılır.

Re-Lu aktivasyon fonksiyonu - Bu, yukarıdaki iki yani gradyan eğiliminin karşılaştığı degrade kaybolma problemini ortadan kaldırma avantajına sahip olan çok yaygın bir diğer basit doğrusal olmayan (pozitif aralıkta doğrusal ve birbirinden ayrı negatif aralık) aktivasyon fonksiyonudur.0çünkü x + sonsuzluk veya-sonsuzluk eğilimindedir. İşte -rağmen onun belirgin doğrusallık Yeniden Lu'nun yaklaşım gücü hakkında bir cevaptır. ReLu'nun daha büyük NN'lere neden olan ölü nöronlara sahip olma dezavantajı vardır.

Ayrıca özel probleminize bağlı olarak kendi aktivasyon fonksiyonlarınızı tasarlayabilirsiniz. İkinci dereceden fonksiyonlara çok daha iyi yaklaşan ikinci dereceden bir aktivasyon fonksiyonunuz olabilir. Ama sonra, doğada biraz dışbükey olması gereken bir maliyet fonksiyonu tasarlamanız gerekir, böylece birinci dereceden diferansiyelleri kullanarak optimize edebilirsiniz ve NN aslında iyi bir sonuca dönüşür. Standart aktivasyon fonksiyonlarının kullanılmasının ana nedeni budur. Ancak uygun matematiksel araçlarla, yeni ve eksantrik aktivasyon fonksiyonları için büyük bir potansiyel olduğuna inanıyorum.

Örneğin, tek bir değişken kuadratik fonksiyon demek yaklaştığı çalışıyoruz demek . Bu en iyi , ve eğitilebilir parametreler olacağı kuadratik aktivasyon yaklaşık olarak tahmin edilecektir. Ancak, geleneksel birinci dereceden türev yöntemini (gradyan iniş) izleyen bir kayıp fonksiyonunun tasarlanması, monotik olarak artmayan fonksiyon için oldukça zor olabilir. $a.x^2 + c$ $w1.x^2 + b$ $w1$ $b$

İçin Matematikçiler: sigmoid aktivasyon fonksiyonu olarak o bkz her zaman < . binom genişleme ile, ya da elde sonsuz GP serisi ters hesaplama ile $(1 / (1 + e ^ {-(w1*x1...wn*xn + b)})$ $e ^ {-(w1*x1...wn*xn + b)}$ 1 =. Şimdi bir NN . Böylece olantüm güçlerini elde ederiz. $sigmoid(y)$ $1 + y + y^2.....$ $y = e ^ {-(w1*x1...wn*xn + b)}$ $y$ $e ^ {-(w1*x1...wn*xn + b)}$ Bu şekilde her bir güç özelliği dayalı çeşitli çürüyen üstel bir çarpımı olarak düşünülebilir eaxmple için, $y$ $x$ $y^2 = e^ {-2(w1x1)} * e^ {-2(w2x2)} * e^ {-2(w3x3)} *...... e^ {-2(b)}$ . Böylece her bir özellik, grafiğinin ölçekleme söz sahiptir . $y^2$

Düşünmenin bir başka yolu, Taylor Serisine göre üsleri genişletmek olacaktır:

Böylece, giriş değişkenlerinin olası tüm polinom kombinasyonları ile çok karmaşık bir kombinasyon elde ediyoruz. Bir Sinir Ağı doğru yapılandırılmışsa, NN sadece bağlantı ağırlıklarını değiştirerek ve maksimum yararlı polinom terimlerini seçerek ve düzgün bir şekilde 2 düğüm çıkışını çıkararak terimleri reddederek bu polinom kombinasyonlarını ince ayarlayabileceğine inanıyorum.

aktivasyon çıkışında yana aynı şekilde çalışabilir . Re-Lu'nun nasıl çalıştığından emin değilim, ancak sert yapısı ve ölü nöronların probelminden dolayı, iyi bir yaklaşım için ReLu ile daha büyük ağlar gerekiyordu. $tanh$ $|tanh| < 1$

Ancak resmi bir matematiksel kanıt için Evrensel Yaklaşım Teoremine bakmak gerekir.

Matematikçi olmayanlar için daha iyi bilgiler için şu bağlantıları ziyaret edin:

Andrew Ng'in Aktivasyon Fonksiyonları - daha resmi ve bilimsel cevap için

Sinir ağı sınıflandırıcısı sadece bir karar düzlemi çizmekten nasıl sınıflandırır?

Diferansiyellenebilir aktivasyon fonksiyonu Sinir ağlarının herhangi bir fonksiyonu hesaplayabildiğinin görsel kanıtı

— DuttaA
kaynak

3

ReLU'nun bugün NN'lerde sigmoid'den daha yaygın olduğunu iddia ediyorum :)

— Andreas Storvik Strauman

@AndreasStorvikStrauman ve sen oldukça haklısın ... Ama sigmoid'in softmax adlı bir çocuğu var :)

— DuttaA

7

Bir sinir ağında sadece doğrusal katmanlarınız olsaydı, tüm katmanlar esasen bir doğrusal katmana çökecekti ve bu nedenle, "derin" bir sinir ağı mimarisi artık etkili olmayacak kadar derin değil, sadece doğrusal bir sınıflandırıcı olurdu.

y = f (W_{1} W_{2} W_{3} x) = f (W x)

$y = f(W_1 W_2 W_3x) = f(Wx)$

$W$ $f()$

Şimdi, her lineer dönüşümden sonra lineer olmayan bir aktivasyon ünitesinin tanıtılmasıyla, bu artık olmayacak.

y = f_{1} (W_{1} f_{2} (W_{2} f_{3} (W_{3} x)))

$y = f_1( W_1 f_2( W_2f_3( W_3x)))$

Artık her bir katman, esasen doğru ağırlıklandırma ve yeterli derinlik / genişlik ile mümkün olan her işleve yaklaşık olarak yaklaşabilen karmaşık doğrusal olmayan bir işleve yol açan önceki doğrusal olmayan katmanın sonuçlarına dayanabilir.

— Marcel_marcel1991
kaynak

W

$W$

W_{1}, W_{2} . . .

$W_1, W_2...$

W_{2}

$W_2$

W_{1}

$W_1$

W_{1} (W_{2} x)

$W_1(W_2\:x)$

W (x)

$W(x)$

5

$f: V \rightarrow W$

$f(x + y) = f(x) + f(y), \; x, y \in V$
$f(c x) = cf(x), \; c \in \mathbb{R}$

Geçmişte doğrusal cebir okuduysanız, bu tanıma aşina olmalısınız.

Bununla birlikte, doğrusallığı verilerin doğrusal ayrılabilirliği açısından düşünmek daha önemlidir, yani veriler, doğrusal karar sınırını temsil eden bir çizgi (veya iki boyuttan fazla ise köprü) ile farklı sınıflara ayrılabilir. veri. Bunu yapamazsak, veriler doğrusal olarak ayrılamaz. Çoğu zaman, daha karmaşık (ve dolayısıyla daha alakalı) bir problem ayarından elde edilen veriler doğrusal olarak ayrılamaz, bu nedenle bunları modellemek bizim çıkarımızdır.

Verilerin doğrusal olmayan karar sınırlarını modellemek için, doğrusallık getirmeyen bir sinir ağı kullanabiliriz. Sinir ağları, lineer olarak ayrılamayan verileri, doğrusal olmayan bir fonksiyon (veya aktivasyon fonksiyonumuz) kullanarak dönüştürerek sınıflandırır, böylece ortaya çıkan dönüştürülmüş noktalar doğrusal olarak ayrılabilir hale gelir.

Farklı problem ayar bağlamları için farklı aktivasyon fonksiyonları kullanılır. Bununla ilgili daha fazla bilgiyi Derin Öğrenme (Uyarlamalı Hesaplama ve Makine Öğrenimi serisi) kitabında okuyabilirsiniz .

Doğrusal olarak ayrılamayan verilerin bir örneği için, bkz. XOR veri kümesi.

İki sınıfı ayırmak için tek bir çizgi çizebilir misiniz?

— sıyırmak
kaynak

4

Birinci Derece Lineer Polinomlar

Doğrusal olmama doğru matematiksel terim değildir. Bunu kullananlar muhtemelen girdi ve çıktı arasındaki birinci derece polinom ilişkisine, düz bir çizgi, düz bir düzlem veya eğriliği olmayan daha yüksek dereceli bir yüzey olarak grafiklendirilecek ilişki türüne atıfta bulunmayı amaçlamaktadır.

İlişkileri y = a ₁ x ₁ + a ₂ x ₂ + ... + b'den daha karmaşık modellemek için , Taylor serisinin yaklaşık iki teriminden daha fazlasına ihtiyaç vardır.

Sıfır Olmayan Eğrilik ile Ayarlanabilen İşlevler

Çok katmanlı algılayıcı ve onun varyantları gibi yapay ağlar, bir devre olarak toplandığında, sıfır olmayan eğriliğin daha karmaşık fonksiyonlarına yaklaşmak için zayıflatma ızgaraları ile ayarlanabilen sıfır olmayan eğrili fonksiyonların matrisleridir. Bu daha karmaşık fonksiyonların genellikle çoklu girişleri vardır (bağımsız değişkenler).

Zayıflatma ızgaraları basitçe matris-vektör ürünleridir, matris daha basit kavisli fonksiyonlarla daha karmaşık kavisli, çok değişkenli fonksiyona yaklaşan bir devre oluşturmak için ayarlanan parametrelerdir.

Elektrik mühendisliği kuralında olduğu gibi, soldan girilen çok yönlü sinyal ve sağda (soldan sağa nedensellik) görünen sonuçla, dikey sütunlara çoğunlukla tarihsel nedenlerle aktivasyon katmanları denir. Aslında basit kavisli fonksiyonların dizileridir. Bugün en yaygın kullanılan aktivasyonlar bunlar.

relu
Sızdıran ReLU
ELU
Eşik (ikili adım)
Lojistik

Kimlik fonksiyonu bazen çeşitli yapısal kolaylık nedenleriyle dokunulmamış sinyallerden geçmek için kullanılır.

Bunlar daha az kullanılır, ancak bir noktada modadaydı. Hala kullanılıyorlar, ancak popülerliğini yitirdiler çünkü geri yayılım hesaplamalarına ek yük getirdiler ve hız ve doğruluk için yarışmalarda kaybetme eğilimi gösteriyorlar.

Softmax
sigmoid
tANH
ArcTan

Bunlardan daha karmaşık olanı parametrelendirilebilir ve güvenilirliği artırmak için hepsi sahte rasgele gürültü ile bozulabilir.

Neden Tüm Bunlarla Rahatsız Etmek?

Yapay ağlar, girdi ve istenen çıktı arasındaki iyi gelişmiş ilişki sınıflarını ayarlamak için gerekli değildir. Örneğin, bunlar iyi geliştirilmiş optimizasyon teknikleri kullanılarak kolayca optimize edilebilir.

Yüksek dereceli polinomlar - Doğrudan doğrusal cebirden türetilmiş teknikler kullanılarak doğrudan çözülebilir
Periyodik fonksiyonlar - Fourier yöntemleriyle tedavi edilebilir
Eğri uydurma - sönümlü en küçük kareler yaklaşımı olan Levenberg-Marquardt algoritmasını kullanarak iyi uyum sağlar

Bunlar için, yapay ağların ortaya çıkmasından çok önce geliştirilen yaklaşımlar genellikle daha az hesaplama yükü ve daha fazla hassasiyet ve güvenilirlik ile en uygun çözüme ulaşabilir.

Yapay ağların excel olması, uygulayıcının büyük ölçüde cahil olduğu fonksiyonların edinilmesinde veya spesifik yakınsama yöntemleri henüz tasarlanmamış olan bilinen fonksiyonların parametrelerinin ayarlanmasında.

Çok katmanlı algılayıcılar (YSA) eğitim sırasında parametreleri (zayıflama matrisi) ayarlar. Ayarlama, bilinmeyen işlevleri modelleyen bir analog devrenin dijital bir yaklaşımını üretmek için gradyan inişi veya varyantlarından biri ile yönlendirilir. Gradyan inişi, çıkışların bu kriterlerle karşılaştırılmasıyla devre davranışının yönlendirildiği bazı kriterler tarafından yönlendirilir. Kriterler bunlardan herhangi biri olabilir.

Eşleşen etiketler (eğitim örneği girişlerine karşılık gelen istenen çıkış değerleri)
Bilgileri dar sinyal yollarından geçirme ve bu sınırlı bilgiden yeniden yapılandırma ihtiyacı
Ağda bulunan başka bir kriter
Ağ dışından gelen bir sinyal kaynağından kaynaklanan diğer kriterler

Özetle

Özetle, aktivasyon fonksiyonları, ağ yapısının iki boyutunda tekrar tekrar kullanılabilen yapı taşlarını temin eder, böylece sinyalin katmandan katmana sinyal ağırlığını değiştirmek için bir zayıflama matrisi ile birleştirildiğinde, keyfi ve karmaşık işlev.

Daha Derin Ağ Heyecanı

Daha derin ağlar hakkında binyıl sonrası heyecan, iki farklı karmaşık girdi sınıfındaki örüntülerin daha büyük iş, tüketici ve bilimsel pazarlarda başarılı bir şekilde tanımlanması ve kullanılmaya başlanmasıdır.

Heterojen ve anlamsal olarak karmaşık yapılar
Medya dosyaları ve akışlar (resimler, video, ses)

— FauChristian
kaynak

Ancak soru, ANN

— DuttaA'nın

@DuttaA, yorumunuz doğruydu. Teşekkür ederim. Cevapta, soruyu doğrudan cevaplayan tek bir cümle vardı ve bu cevabın geri kalanına olan bağ çok iyi iletilmedi. Büyük ölçüde düzenledim.

— FauChristian

Bu aslında en iyi cevap, daha fazla oy vermeli ve kabul edilen cevap olmalı.

— DuttaA

4

$x_1$ $x_1$

$w_{11}, w_{12}, w_{21}$ $w_{22}$

\begin{aligned} Ö_{1} = w_{11} x_{1} + w_{12} x_{2} \\ Ö_{2} = w_{21} x_{1} + w_{22} x_{2} \end{aligned}

$\begin{align} o_1 = w_{11}x_1 + w_{12}x_2 \\ o_2 = w_{21}x_1 + w_{22}x_2 \end{align}$

Son katmanın çıktısını ağırlıklarıyla hesaplayalım $z_1$ $z_2$

Ö u t = z_{1} Ö_{1} + z_{2} Ö_{2}

$out = z_1o_1 + z_2o_2$

$o_1$ $o_2$

Ö u t = z_{1} (w_{11} x_{1} + w_{12} x_{2}) + z_{2} (w_{21} x_{1} + w_{22} x_{2})

$out = z_1(w_{11}x_1 + w_{12}x_2) + z_2(w_{21}x_1 + w_{22}x_2)$

veya

Ö u t = (z_{1} w_{11} + z_{2} w_{21}) x_{1} + (z_{2} w_{22} + z_{1} w_{12}) x_{2}

$out = (z_1w_{11} + z_2 w_{21})x_1 + (z_2w_{22} + z_1w_{12})x_2$

$z_1w_{11} + z_2 w_{21}$ $z_2w_{22} + z_1w_{12}$

Sonuç: doğrusallık olmadan, çok katmanlı bir NN'nin hesaplama gücü 1 katmanlı NN'ye eşittir.

Ayrıca, bir olasılık veren ifade EĞER sigmoid fonksiyonunu farklılaştırılabilir olarak düşünebilirsiniz. Ve yeni katmanlar eklemek, IF ifadelerinin yeni, daha karmaşık kombinasyonlarını oluşturabilir. Örneğin, ilk katman özellikleri birleştirir ve resimde gözler, kuyruk ve kulaklar olması olasılığını verir, ikincisi son katmandan yeni, daha karmaşık özellikleri birleştirir ve bir kedi olması olasılığını verir.

Daha fazla bilgi için: Hacker'ın Yapay Sinir Ağları rehberi .

— user2674414
kaynak

2

Suni bir ağda bir aktivasyon fonksiyonunun bir amacı yoktur, tıpkı 21 sayısı faktörlerinde 3'ün bir amacı olmadığı gibi. Çok katmanlı algılayıcılar ve tekrarlayan sinir ağları, her biri bir tane içeren bir hücre matrisi olarak tanımlandı. . Aktivasyon fonksiyonlarını kaldırın ve kalan tek şey bir dizi yararsız matris çarpımıdır. 3'ü 21'den çıkarın ve sonuç daha az etkili bir 21 değil, tamamen farklı bir sayı 7'dir.

$ax$ $a$ $ax$

— han_nah_han_
kaynak