Yankı Devlet Ağlarının sezgisel açıklaması nedir?

17

Tekrarlayan Sinir Ağlarında (RNN) yeniyim ve hala kavramları öğreniyorum. Soyut bir düzeyde, bir Yankı Durum Ağı'nın (ESN) giriş kaldırıldıktan sonra bile bir dizi girdi, yani bir sinyal üretebildiğini anlıyorum . Ancak, Scholarpedia makalesini tamamen kavramak ve anlamak çok zor buldum .

Birisi öğrenmenin matematiksel olarak nasıl çalıştığını mümkün olan en basit biçimde açıklayabilir mi?

neural-networks

— tejaskhot
kaynak

17

Echo State Network, Reservoir Computing'in daha genel konseptinin bir örneğidir . ESN'nin arkasındaki temel fikir, bir RNN'den (birbirine bağlı bir dizi girdi, yani bir sinyal gibi zaman bağımlılıkları) fayda sağlamak, ancak yok olan gradyan problemi gibi geleneksel bir RNN eğitimi problemleri olmadan elde etmektir .

ESN'ler bunu, sigmoidal bir transfer fonksiyonu (giriş boyutuna göre, 100-1000 birim gibi bir şey) kullanarak nispeten büyük bir bağlı nöron rezervuarına sahip olarak elde eder. Rezervuardaki bağlantılar bir kez atanır ve tamamen rastgeledir; rezervuar ağırlıkları eğitilmez. Giriş nöronları rezervuara bağlanır ve giriş aktivasyonlarını rezervuara besler - bunlara da eğitimsiz rastgele ağırlıklar atanır. Eğitilen tek ağırlıklar, rezervuarı çıkış nöronlarına bağlayan çıkış ağırlıklarıdır.

Eğitimde, girdiler rezervuara beslenecek ve çıktı birimlerine öğretmen çıktısı uygulanacaktır. Rezervuar durumları zamanla yakalanır ve saklanır. Tüm eğitim girdileri uygulandıktan sonra, yakalanan rezervuar durumları ve hedef çıktılar arasında basit bir doğrusal regresyon uygulaması kullanılabilir. Bu çıkış ağırlıkları daha sonra mevcut ağa dahil edilebilir ve yeni girdiler için kullanılabilir.

Fikir şu ki, rezervuardaki seyrek rastgele bağlantılar, önceki durumların geçtikten sonra bile "yankıya" izin vermesidir, böylece ağ eğitildiği bir şeye benzer yeni bir girdi alırsa, rezervuardaki dinamikler giriş için uygun aktivasyon yörüngesini takip edin ve bu şekilde eğitildiği şeyle eşleşen bir sinyal sağlayabilir ve eğer iyi eğitimli ise, daha önce gördüklerinden genelleştirebilir, mantıklı olacak aktivasyon yörüngelerini takip edebilir. rezervuarı tahrik eden giriş sinyali verildi.

Bu yaklaşımın avantajı inanılmaz derecede basit bir eğitim prosedürüdür çünkü ağırlıkların çoğu sadece bir kez ve rastgele atanır. Yine de zaman içinde karmaşık dinamikleri yakalayabilirler ve dinamik sistemlerin özelliklerini modelleyebilirler. ESN'lerde bulduğum en yararlı makaleler:

Herbert Jaeger tarafından RNN'lerin eğitimi üzerine bir eğitim (ESN'ler hakkındaki Scholarpedia sayfasının küratörü)
Yankı Devlet Ağlarının Uygulanması İçin Pratik Bir Kılavuz by Mantas Lukoševičius

Her ikisinin de biçimcilikle birlikte gidecek açıklamaları kolay ve uygun parametre değerlerini seçmek için rehberli bir uygulama oluşturmak için olağanüstü tavsiyeler var.

GÜNCELLEME: Derin Öğrenme kitabı Goodfellow, Bengio ve Courville gelen Yankı Devlet Ağların biraz daha ayrıntılı ama yine de güzel üst düzey tartışma vardır. Bölüm 10.7'de yok olan (ve patlayan) gradyan problemi ve uzun süreli bağımlılıkları öğrenmenin zorlukları tartışılmaktadır. Bölüm 10.8 tamamen Yankı Devlet Ağları ile ilgilidir. Spesifik olarak, uygun spektral yarıçap değerine sahip rezervuar ağırlıklarının seçilmesinin neden önemli olduğu hakkında ayrıntılara girer - bilgiyi zaman içinde yayırken istikrarı teşvik etmek için doğrusal olmayan aktivasyon birimleriyle birlikte çalışır.

— adamconkey
kaynak

1

Bir ESN'de öğrenme, ağırlıkların adapte edilmesine zorunlu değildir, daha çok çıktı katmanı, ağın mevcut durumu için hangi çıkışı üreteceğini öğrenir. Dahili durum ağ dinamiklerine dayanır ve buna dinamik rezervuar durumu denir. Rezervuar durumlarının nasıl şekillendiğini anlamak için bir ESN'nin topolojisine bakmamız gerekir.

Giriş üniteleri iç ünitelerdeki (rezervuar üniteleri) nöronlara bağlanır, ağırlıklar rastgele başlatılır. Rezervuar birimleri rasgele ve seyrek bağlıdır ve rastgele ağırlığa sahiptir. Çıkış ünitesi ayrıca tüm rezervuar ünitelerine bağlanır, böylece rezervuar durumunu alır ve karşılık gelen bir çıkış üretir.

$t$ $t$

Eğitimin nasıl çalıştığını ayrıntılı olarak açıklayabilmemiz için önce bazı şeyleri açıklamalı ve tanımlamalıyız:

$T$ $t$ $W_{fb}$

Değişken tanımlamalar:

$r$
$o$
$t$
$o$
$T$ $t$ $o$

Sonunda eğitim nasıl ayrıntılı olarak çalışıyor?

$t$ $M$ $t$ $r$
$W_{out}$ $M \bullet W_{out} = T -> W_{out} = M \bullet T^{-1}$

Öğrenme çok hızlı olduğu için, iyi uyan bir ağ almak için birçok ağ topolojisini deneyebiliriz.

İçin performansını ölçmek bir ESN:

$W_{fb}$
$\left|\left|M \bullet W_{out} – T\right|\right|^2$

Spektral Yarıçap ve ESN

Spec-tral $1$

— manyak
kaynak