Önce geleneksel bir Bayes Sinir Ağında temel olasılık modelinin ne olduğunu iyi bir şekilde kavramanızı öneririm. Aşağıda, bazı terimler kalın yazı tipiyle yazılacaktır . Daha ayrıntılı bilgi edinmek için lütfen bu terimleri Google'a yazmayı deneyin. Bu sadece temel bir bakış. Umut ediyorum bu yardım eder.
Let en durumunu dikkate gerileme içinde ileri beslemeli sinir ağları ve bazı gösterim kurarlar.
Let en öngördürücülerin değerleri ifade giriş katmanı . Değerleri birimleri olarak iç katman ile belirtilir için, . Son olarak, çıktı katmanımız var .(x1,…,xp)=:(z(0)1,…,z(0)N0)(z(ℓ)1,…,z(ℓ)Nℓ)ℓ=1,…,L−1 (y1,…,yk)=:(z(L)1,…,z(L)NL)
Ağırlıklar ve yanlılık biriminin katmanında ile belirtilir ve , sırasıyla, , ve .iℓw(ℓ)ijb(ℓ)iℓ=1,…,Li=1…,Nℓj=1,…,Nℓ−1
Let olması aktivasyon fonksiyonu birimi için katmanında için, ve .g(ℓ)i:RNℓ−1→Riℓℓ=1,…,Li=1…,Nℓ
Yaygın olarak kullanılan aktivasyon fonksiyonları lojistik , ReLU ( pozitif kısım olarak da bilinir ) ve tanhttır .
Şimdi, , katman geçiş işlevlerini tanımlayın
burada
için .ℓ=1,…,L
G(ℓ):RNℓ−1→RNℓ:(z(ℓ−1)1,…,z(ℓ−1)Nℓ−1)↦(z(ℓ)1,…,z(ℓ)Nℓ),
z(ℓ)i=g(ℓ)i(∑j=1Nℓ−1w(ℓ)ijz(ℓ−1)j+b(ℓ)i),
i=1,…,Nℓ
Tüm katmanlardaki tüm birimlerin ağırlık ve sapma kümesini , yani
sinir ağımız katman geçiş fonksiyonlarının bileşimi ile elde edilen fonksiyon ailesi :
θ
θ={w(ℓ)ij,b(ℓ)i:ℓ=1,…,L;i=1…,Nℓ;j=1,…,Nℓ−1},
Gθ:Rp→RkGθ=G(L)∘G(L−1)∘⋯∘G(1).
Yukarıdaki açıklamada yer alan herhangi bir olasılık yoktur. Orijinal sinir ağı işinin amacı işlev uydurmadır .
Derin Öğrenmedeki "derin", söz konusu sinir ağlarında birçok iç tabakanın varlığını ifade eder.
Bir verilen eğitim seti ,
üzerinden en . Tahmini için bazı vektör için in test seti , tahmin edilen cevap basitçe olan, çözüm minimizasyon problemi için bulundu. Bu minimizasyon için altın standart , modern GPU'da bulunan paralelleştirme tesislerini kullanarak TensorFlow kütüphanesi tarafından uygulanan geri yayılımdır.{(xi,yi)∈Rp×Rk:i=1,…,n}
∑i=1n∥yi−Gθ(xi)∥2,
θx∗Gθ^(x∗)θ^(projeleriniz için
Keras arayüzüne bakın). Ayrıca, artık bu görevleri (
TPU'lar ) kapsayan donanımlar da mevcut . Sinir ağı genel olarak aşırı parametrelendirildiğinden, aşırı sığmayı önlemek için, tarife bir tür düzenlileştirme eklenir, örneğin objektif işleve ceza gibi bir
sırt toplamak veya eğitim sırasında
bırakma kullanmak .
Geoffrey Hinton (Derin Öğrenme Godfather) ve ortak çalışanlar bunların çoğunu icat ettiler. Derin Öğrenmenin başarı öyküleri her yerde.
80'lerin sonunda ve 90'ların başında olasılıklar Gauss olasılığı
ve basit (muhtemelen basit) Gauss öncesi, ağdaki tüm ağırlıkların ve önyargıların a priori bağımsızlığını varsayarak :
Lx,y(θ,σ2)∝σ−nexp(−12σ2∑i=1n∥yi−Gθ(xi)∥2),
π(θ,σ2)∝exp(−12σ20∑ℓ=1L∑i=1Nℓ((b(ℓ)i)2+∑j=1Nℓ−1(w(ℓ)ij)2))×π(σ2).
Bu nedenle, ağırlıklar ve yanlılıklar için marjinal öncelikler sıfır ortalama ve ortak varyans ile normal dağılımlardır . Bu orijinal ortak model, çıkarımın daha da zorlaştırılmasıyla çok daha ilgili hale getirilebilir.σ20
Bayesian Derin Öğrenme, karşılık gelen posterior dağılımdan örnekleme zorluğu ile karşı karşıyadır. Bu gerçekleştirildikten sonra, posterior prediktif dağılım ile doğal olarak tahminler yapılır ve bu tahminlerde yer alan belirsizlikler tamamen ölçülür. Bayesian Derin Öğrenme'deki kutsal kâse, verimli ve ölçeklenebilir bir çözümün oluşturulmasıdır. Bu görevde birçok hesaplama yöntemi kullanılmıştır: Metropolis-Hastings ve Gibbs örneklemesi , Hamiltonian Monte Carlo ve son zamanlarda Varyasyon Çıkarımları .
Bazı başarı öyküleri için NIPS konferans videolarına göz atın: http://bayesiandeeplearning.org/