Yapay Sinir Ağı * nedir?


15

Biz eski defterleri gibi Sinir Ağları edebiyat, biz nöromorfik topolojileri ( "Sinir-Ağı" gibi bir mimariler) ile diğer yöntemleri tanımlamak için olsun. Ve Evrensel Yaklaşım Teoreminden bahsetmiyorum . Örnekler aşağıda verilmiştir.

O zaman beni meraklandırıyor: Yapay bir Sinir Ağının tanımı nedir? Topolojisi her şeyi kapsar.


Örnekler:

Yaptığımız ilk kimliklerden biri, PCA ile kodlayıcı ve kod çözücüde bağlı ağırlıklar ve darboğaz katmanında eşik aktivasyonları olan doğrusal bir Otomatik Kodlayıcı arasındadır.

Ayrıca, doğrusal modeller (özel olarak lojistik regresyon) ve gizli katmanı olmayan bir Nöral Ağ ve tek bir çıkış katmanı arasında ortak bir tanımlama yapılır. Bu tanımlama birkaç kapı açar.

Fourier ve Taylor serileri? YSA . SVM ? ANN. Gauss Süreci? YSA (sonsuz gizli birimlere sahip tek gizli katman ile).

Ve böylece, bu algoritmaların özel kayıp işlevlerine sahip keyfi düzenli sürümleri bir Sinir Ağı çerçevesine dahil edebiliriz.

Ama ne kadar çok kazarsak, o kadar benzerlikler ortaya çıkar. Az önce , belirli bir YSA mimarisinin karar ağaçları ile tanımlanmasını sağlayan ve YSA yöntemleriyle (Gradient Descent backpropagation gibi) öğrenilmesine olanak tanıyan Derin Sinirsel Karar Ağaçlarına rastladım . Buradan sadece Sinir Ağı topolojilerinden Rastgele Ormanlar ve Gradyan Yükseltilmiş Karar Ağaçları inşa edebiliriz.

Her şey Yapay Sinir Ağı olarak ifade edilebilirse, Yapay Sinir Ağı neyi tanımlar?


Derin Sinirsel Karar Ağaçları hakkındaki bu makale oldukça uzaktadır. Normalde aktivasyon fonksiyonları, dış ürünler değil, gerçek değerli fonksiyonlardır. Dolayısıyla, normalde düşündüğümüz gibi YSA'ları gerçekten tartışmıyorlar, yaygın olarak kullanılmayan veya kabul edilmeyen matematiksel bir genelleme. Bir YSA'nın bir karar ağacından farklı olduğunu göstermek için, tüm YSA'ların parametrik olduğunu (sonlu bir parametre alanına sahip), ağaçlar parametrik olmadığına (potansiyel olarak sonsuz bir parametre alanına sahip olduğunu)
işaret ederim

@olooney Kronecker ürünü bir aktivasyon işlevi değildir, sadece bir önceki katmanın çıktıları üzerinde bir işlemdir (bir kıvrım veya aktivasyonlar üzerinde tanımladığımız diğer herhangi bir işlem gibi). DNDT herhangi bir karar ağacını temsil edebilir ve her DNDT bir karar ağacı ile temsil edilebilir.
Firebug

1
@olooney aktivasyon fonksiyonu tanımınıza göre, Softmax bir aktivasyon fonksiyonu değildir.
Firebug

2
Bu sorunun motivasyonunu anladığımdan tam olarak emin değilim. YSA'nın olası, gevşek bir tanımı, girişleri / çıkışları işlemek için nöronları (yani aktivasyon fonksiyonlarını) kullanan ve çoğu zaman onu eğitmek için degrade inişini kullanan yönlendirilmiş bir grafik model olmasıdır. "Her şey bir YSA olarak ifade edilebilir" dediğinde, özellikle belirtilen diğer modeller ile YSA'lar arasında tam bir eşleme olup olmadığını soruyor musunuz? Sorun, optimizasyonlara uyması için son derece değiştirilmiş eğitim rutinleri bulmanız gerekecek.
Alex

1
@Sycorax da yapıyorum, hem o hem de Hinton ima etti. Diğer kamptaki yanıtlayanlara güvenilir kaynaklar sağlama fırsatı vermek istiyorum :)
Firebug

Yanıtlar:


6

Jürgen Schmidhuber, " Yapay Sinir Ağlarında Derin Öğrenme: Genel Bakış ", sinir ağları ve derin öğrenmedeki temel kavramların tarihini izler. Onun görüşüne göre, sinir ağları, esasen, her bir düğümün bir hesaplama birimini temsil ettiği yönlendirilmiş bir grafik olarak karakterize edilebilen herhangi bir modeli kapsamaktadır. Schmidhuber, önemli bir sinir ağı araştırmacısıdır ve orijinal makaleyi Sepp Hochreiter ile LSTM ağları üzerine yazmıştır.

Bir öğrenme sisteminin hangi değiştirilebilir bileşenleri, başarısından veya başarısızlığından sorumludur? Onlarda hangi değişiklikler performansı artırır? Buna temel kredi tahsis problemi denir (Minsky, 1963). Evrensel problem çözücüler için çeşitli teorik anlamda zaman-optimal olan genel kredi tahsis yöntemleri vardır (Bölüm 6.8). Bununla birlikte, bu anket Yapay Sinir Ağlarında (NN'ler) Derin Öğrenmenin (DL) daha dar fakat şimdi ticari olarak önemli alt alanına odaklanacaktır.

Standart bir sinir ağı (NN), her biri gerçek değerli aktivasyonlar dizisi üreten nöron adı verilen birçok basit, bağlı işlemciden oluşur. Giriş nöronları çevreyi algılayan sensörler aracılığıyla aktif hale gelirken, diğer nöronlar daha önce aktif olan nöronların ağırlıklı bağlantıları ile aktif hale gelir (Ayrıntılar Bölüm 2). Bazı nöronlar, eylemleri tetikleyerek çevreyi etkileyebilir. Öğrenme veya kredi tahsisi, NN'yi araba kullanmak gibi istenen davranışlarda gösteren ağırlıkların bulunmasıyla ilgilidir. Soruna ve nöronların nasıl bağlandığına bağlı olarak, bu tür davranışlar, her bir aşama ağın toplam aktivasyonunu dönüştürdüğü (çoğunlukla doğrusal olmayan bir şekilde) hesaplama aşamalarının uzun nedensel zincirlerini (Bölüm 3) gerektirebilir. Derin Öğrenme, bu gibi birçok aşamada doğru bir şekilde kredi atamakla ilgilidir.

Bu tür birkaç evreye sahip sığ NN benzeri modeller, yüzyıllar olmasa da onlarca yıldır var olmuştur (Bölüm 5.1). Art arda gelen birkaç doğrusal olmayan nöron tabakasına sahip modeller, en azından 1960'lara (Bölüm 5.3) ve 1970'lere (Bölüm 5.5) dayanmaktadır. 1960'larda ve 1970'lerde backpropagation (BP) olarak adlandırılan, ayrık, farklılaştırılabilir derinlik ağlarında öğretmen tabanlı Denetimli Öğrenme (SL) için etkili bir gradyan iniş yöntemi geliştirildi ve 1981'de NN'lere uygulandı (Bölüm 5.5). Bununla birlikte, çok sayıda katmana sahip derin NN'lerin BP tabanlı eğitiminin 1980'lerin sonunda pratikte zor olduğu bulunmuştur (Bölüm 5.6) ve 1990'ların başında açık bir araştırma konusu haline gelmiştir (Bölüm 5.9). DL, Denetlenmeyen Öğrenme (UL), örneğin Sec. 5.10 (1991), Sec. 5.15 (2006). 1990'lar ve 2000'ler de tamamen denetlenen DL'nin birçok gelişmesini gördü (Bölüm 5). Yeni binyılda, derin NN'ler nihayetinde çok sayıda önemli uygulamada çekirdek makineleri (Vapnik, 1995; Scholkopf ve diğerleri, 1998) gibi alternatif makine öğrenme yöntemlerinden daha iyi performans göstererek geniş çapta dikkat çekti. Aslında, 2009'dan bu yana, denetlenen derin NN'ler birçok resmi uluslararası örüntü tanıma yarışmasını (ör. Bölüm 5.17, 5.19, 5.21, 5.22) kazanmış ve ilk insanüstü görsel örüntü tanıma elde edilmesi sınırlı alanlarda sonuç vermektedir (Bölüm 5.19, 2011). Derin NN'ler aynı zamanda denetleyici öğretmenin olmadığı daha genel Takviye Öğrenimi (RL) alanı için de önem kazanmıştır (Bölüm 6). temel olarak çok sayıda önemli uygulamada çekirdek makineleri (Vapnik, 1995; Scholkopf ve diğerleri, 1998) gibi alternatif makine öğrenme yöntemlerinden daha iyi performans göstererek. Aslında, 2009'dan bu yana, denetimli derin NN'ler birçok resmi uluslararası örüntü tanıma yarışmasını (ör. Bölüm 5.17, 5.19, 5.21, 5.22) kazanmış ve ilk insanüstü görsel örüntü tanıma elde edilmesi sınırlı alanlarda sonuç vermektedir (Bölüm 5.19, 2011). Derin NN'ler aynı zamanda denetleyici öğretmenin olmadığı daha genel Takviye Öğrenimi (RL) alanı için de önem kazanmıştır (Bölüm 6). temel olarak çok sayıda önemli uygulamada çekirdek makineleri (Vapnik, 1995; Scholkopf ve diğerleri, 1998) gibi alternatif makine öğrenme yöntemlerinden daha iyi performans göstererek. Aslında, 2009'dan bu yana, denetimli derin NN'ler birçok resmi uluslararası örüntü tanıma yarışmasını (ör. Bölüm 5.17, 5.19, 5.21, 5.22) kazanmış ve ilk insanüstü görsel örüntü tanıma elde edilmesi sınırlı alanlarda sonuç vermektedir (Bölüm 5.19, 2011). Derin NN'ler aynı zamanda denetleyici öğretmenin olmadığı daha genel Takviye Öğrenimi (RL) alanı için de önem kazanmıştır (Bölüm 6). ilk insanüstü görsel örüntü tanımayı başarmak sınırlı alanlarda sonuç verir (Bölüm 5.19, 2011). Derin NN'ler aynı zamanda denetleyici öğretmenin olmadığı daha genel Takviye Öğrenimi (RL) alanı için de önem kazanmıştır (Bölüm 6). ilk insanüstü görsel örüntü tanımayı başarmak sınırlı alanlarda sonuç verir (Bölüm 5.19, 2011). Derin NN'ler aynı zamanda denetleyici öğretmenin olmadığı daha genel Takviye Öğrenimi (RL) alanı için de önem kazanmıştır (Bölüm 6).

Öte yandan, makine öğrenimi stratejileri için birbirini dışlayan kovaların bir sınıflandırmasını oluşturmanın mutlaka kârlı olduğundan emin değilim. Bence modellerin sinir ağları olarak görülebileceği bakış açıları olduğunu söyleyebiliriz. Perspektifin her bağlamda mutlaka en iyi veya yararlı olduğunu düşünmüyorum. Örneğin, hala ayrımlarını ortadan kaldırmak ve "sinir ağı ağaçları" olarak adlandırmak yerine, rastgele ormanları ve eğimi güçlendirilmiş ağaçları "ağaç toplulukları" olarak adlandırmayı planlıyorum. Dahası, Schmidhuber NN'leri çekirdek makinelerinden ayırıyor - çekirdek makinelerinin NN'lerle bazı bağlantıları olsa da - "Yeni binyılda derin NN'ler nihayetinde geniş çaplı ilgi çekti, temel olarak çekirdek makineleri gibi alternatif makine öğrenme yöntemlerinden daha iyi performans göstererek ... çok sayıda önemli uygulamada. "


Yani, temelde, bugün Makine Öğrenimi ve İstatistiklerinde bilinen her model ve buluşsal yöntem Schmidhuber tarafından bir YSA olarak kabul edilirken, ayırt edici isimlendirme sadece optimizasyon stratejisi tarafından verilir (burada optimizasyon olmayan modeller dahil)?
Firebug

1
Bunu pratik bir bakış açısıyla anlıyorum, ama hemen hemen her modelin, kesinlikle, bir YSA olduğu gerçeğini değiştirmiyor (olmayan herhangi bir modeli düşünemiyorum).
Firebug

2
@Firebug Bu YSA tanımına eşit olacak şekilde eğitilmiş veya bir 'öğrenme ortamına' yerleştirilmiş olan regresyon veya (basit k-araçları ve diğerleri) kümeleme problemlerini nasıl yeniden biçimlendirirsiniz?
Sextus Empiricus

1
@Firebug PCA'nın belirli bir otomatik enkodere eşdeğer olduğu gösterilebilme gerçeğini PCA'yı "sinir ağı" haline getirmiyorum. Standart PCA'da gradyan inişi bile kullanmıyoruz.
amip diyor Reinstate Monica

1
@Firebug Eğer "NN" "bağlı hesaplama düğümleri" olarak tanımlarsanız, o zaman herhangi bir hesaplama bir NN olduğunu tahmin ediyorum. Herhangi bir kullanım emin değilim ama tamam.
amoeba, Reinstate Monica

7

Bir YSA'nın temel bir tanımını yapmak istiyorsanız, bunun bir etkinleştirme işlevi aracılığıyla girişlerin ve çıkışların her bir düğümde işlendiği ve zaman eğim inişinin çoğunun onu eğitmek için kullanıldığı yönlendirilmiş bir grafik model olduğunu söyleyebilirsiniz. Öyleyse soru gerçekten olur: Hangi modeller grafik modeller olarak ifade edilebilir?

Ben bir uzman değilim, ancak teorik olarak bazı YSA'ların Turing tamamlanmış olarak gösterilebileceğine inanıyorum, bu da olası herhangi bir hesaplama kümesini yapabilmeleri gerektiği anlamına geliyor (olası sonsuz sayıda kaynakla, dikkat edin).

Ayrıca sorunuzu şu şekilde yorumlayacağım:

Herhangi bir model için, bu modeli olabildiğince yakın ve makul bir sürede taklit etmek için bir YSA modelini tokatlayabilir miyim?

Bir vanilya sinir ağı, heaviside adım aktivasyonlarını kullanarak bir karar ağacını taklit edebilir. Sorun, bu tür birim aktivasyonlarının sıfır gradyanı olmasıdır, bu nedenle normal gradyan inişi çalışmaz. "Sorun değil, yalnızca değiştirilmiş bir degrade iniş biçimi kullanın" diyebilirsiniz. Ancak, bu hala yeterli değil. Daha iyi bir örnek olarak, yalnızca gradyanla güçlendirilmiş ormanlar değil, XGBOOST gibi bir şey alın. Bölünmüş noktalar, budama, hız için optimizasyon vb. Seçmeye yönelik bir sürü ekstra iş var. Belki yeterli değişikliklerden sonra benzer görünümlü bir YSA yapabilirsiniz, ancak böyle bir YSA'nın en azından ne de işi yapmak için optimize edilmişse.

f(x)=ex


2
Cevap için teşekkürler! Soruyla ilgili olarak - "For any given model, can I slap together an ANN model to emulate that model, as close as possible, and in a reasonable amount of time?"- Bunun önemli olmadığını söylemekten korkuyorum. Mesele şu ki, YSA topolojisi o kadar genel ki her şeyi kapsıyor gibi görünüyor ve optimizasyon stratejisi YSA'nın ne olduğunu ve neyin olmadığını belirleyemiyor gibi görünüyor. Dolayısıyla soru, YSA'yı ne tanımlar? Çünkü aksi halde her şey bir bakıma başka terimlerle ifade edilen bir YSA'dır.
Firebug

1
"A vanilla neural network can emulate a decision tree, by using heaviside step-activations. The problem is that such unit activations have zero gradient, so normal gradient descent won't work. You might say, "no problem, just use a modified form of gradient descent." However, that's still not enough. [...]"- İddia edebileceğimiz gibi, optimizasyon YSA'yı neyin oluşturduğunun tanımında belirleyici bir faktör değildir. Her karar ağacını bir sinir ağı olarak yazabilirseniz (ve bunu yapabiliriz), o zaman DT'lerin (bir tür) NN olduğunu güvenli bir şekilde söyleyebiliriz, ancak tersi doğru değildir.
Firebug

"If you want a basic definition of an ANN, you might say that it's a directed-graphical-model, where inputs and outputs are processed at each node via an activation function, and most of the time gradient descent is used to train it. So the question really becomes: what models out there can be expressed as graphical models?"- Buna katılıyorum. Daha sonra, "Sinir Ağı" en genel model sınıfı olarak yorumlanabilir, belki de Yönlendirilmemiş ve Yönlendirilmiş Grafik Modellerinin bir üst kümesi olan "Grafik modeller" den daha az geneldir. Belki de bunun hakkında daha fazla ayrıntı verebilirsiniz;)
Firebug

2

Belki de YSA'lar için daha doğru bir isim "farklılaşabilir ağlar", yani degrade iniş veya varyantı kullanılarak optimize edilebilen karmaşık parametreli fonksiyonlardır. Bu, genelleştirilebilirliği vurgulayan, ancak temel fikirler, uygun olduğu görevler, temeldeki matematiksel çerçeve vb. Hakkında hiçbir şey söylemeyen çok genel bir tanımdır.

Farklılaşmanın bir özellik olduğuna dikkat edin, ana gerekli değildir. Örneğin, SVM, gradyan inişi kullanılarak eğitilebilir ve böylece bir nöral / farklılaşabilir ağın özelliklerini sergiler, ancak ana fikir hiperplanlar kullanılarak veri ayrımıdır. Varyasyonel otomatik kodlayıcı, kodlayıcı ve kod çözücü için MLP'ler kullanır, ancak optimize ettiğiniz işlev Bayesian istatistiklerinden vb. Gelir.

Genellikle sinir ağları olarak adlandırılan ancak öğrenme için GD kullanmayan birkaç model de vardır. Buna iyi bir örnek RBM'dir. Benim tahminim, "sinir ağı" etiketinin çoğunlukla tarihsel nedenlerden dolayı yapıştırılmış olması - sonunda, RBM'nin yaratıcısı Geoffrey Hinton ve Hinton bir sinir ağı adamı, değil mi? Bununla birlikte, modeli analiz ederseniz, RBM'nin yapısının bir Markov ağı olduğunu göreceksiniz, enerji tabanlı maliyet fonksiyonu 20. yüzyılın başındaki istatistiksel fizikten geliyor ve MCMC / Gibbs örneklemesi sinir ağlarından paralel ve tamamen bağımsız olarak gelişiyor .


2
Degrade tabanlı öğrenme YSA'ların başarısında kesinlikle bir rol oynamıştır. Fakat farklılaşmayı tanım için gerekli olarak görmüyorum, çünkü bazı YSA'lar ayırt edilemez. Örneğin, ilk YSA (McCulloch-Pitts modeli) ikili eşik birimleri kullandı. Güncel bir araştırma konusu, dikenli ağlar gibi ayırt edilemeyen YSA'larda öğrenmenin nasıl yapılacağıdır. Ya da, tipik, ayırt edilebilir bir YSA ile başladığımızı, ancak daha sonra ayırt edilemeyen bir kayıp fonksiyonunu en aza indirmek istediğimizi beyan edin. Artık YSA değil mi?
user20160

Tam da bu yüzden yem-ileri, tekrarlayan, özyinelemeli, evrişimsel ağlar, otomatik kodlayıcılar, VAE'ler, GAN'lar, dikkat ve normalde "sinir ağları" olarak adlandırdığımız diğer birçok modeli kapsayan alternatif bir tanım önerdim, ancak örneğin insan beynini simüle etmeye dayalı yaklaşımları hariç tutar. veya PGM'ler üzerinde kapsamlı örnekleme. 2018 itibariyle, bu yaklaşımlar gerçekten farklıdır, farklı optimizasyon yöntemleri, farklı kütüphaneler vb. Kullanırlar. (CNN'lerden veya RNN'lerden farklı olarak, aslında insan simülasyonunu yaparken, spiking ağları için "sinir ağı" ndan daha iyi bir isim düşünemiyorum. beyin).
Ağustos'ta arkadaş

1

Bir Sinir Ağı'nın tanımlanmasına yardımcı olan bazı şeyleri varsaymaya çalışabilirim.

  • Ayarlanabilir parametreleri olan bir hesaplama grafiği.
  • Bahsedilen parametreler verilere uyacak şekilde ayarlanabilir (gerçek veya simüle edilmiş).
  • Optimize edilecek objektif bir fonksiyon, örtülü veya açık bir şekilde dahil edilir. Parametrelerde global veya yerel olabilir.

Bunun yaygın kullanımdaki tüm sinir ağlarını ve bazı ezoterik ağları kapsadığından eminim.

Optimizasyona agnostiktir (gradyan tabanlı optimizasyon uygularsak, gelişen ağlar sinir ağları olmaz).

Nöronlar / düğümler veya katmanlardan bahsetmiyor (bugün bazı sinir ağları bu terimlerle pek tarif edilmiyor), ancak sanırım bunu dahil edebiliriz ve biraz daha kısıtlayıcı olabiliriz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.