Bayes Derin Öğrenme nedir?


Yanıtlar:


10

NIPS atölye bağlantınızdan ayrılan Yee Whye Teh, Bayesian Derin Öğrenme ile ilgili NIPS'de bir konuşma yaptı (video: https://www.youtube.com/watch?v=LVBvJsTr3rg , slaytlar: http: //csml.stats. ox.ac.uk/news/2017-12-08-ywteh-breiman-lecture/). Konuşmanın bir noktasında, Bay Bayes derin öğrenmeyi Bayesç çerçevesini derin öğrenmeden gelen fikirlere (sinir ağının ağırlıkları üzerinde bir posterior öğrenmek gibi) uygulamak ve derin Bayes öğrenmesini derin öğrenmeden fikirleri Bayes çerçevesi (derin Gauss süreçleri veya derin üstel aileler gibi). Elbette, varyasyonel otomatik kodlayıcılar gibi iki kavram arasındaki çizgiyi aşan fikirler var. Çoğu kişi Bayesian derin öğrenme derken, genellikle ikisinden biri anlamına gelir ve bu, bağlandığınız atölyedeki kabul edilen makalelere (bir önceki yılki atölye ile birlikte) yansır. Fikirler Neal'ın 90'larda sinir ağlarının Bayesçi öğrenmesi üzerine yaptığı çalışmalara geri dönerken (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.446.9306&rep=rep1&type=pdf ) ve o zamandan bu yana yıllar geçtikten sonra çalışmalar yapılmış, muhtemelen daha önemli son makalelerden biri orijinal varyasyonlu otomatik enkoder kağıdı ( https://arxiv.org/pdf/1312.6114.pdf ).


10

Önce geleneksel bir Bayes Sinir Ağında temel olasılık modelinin ne olduğunu iyi bir şekilde kavramanızı öneririm. Aşağıda, bazı terimler kalın yazı tipiyle yazılacaktır . Daha ayrıntılı bilgi edinmek için lütfen bu terimleri Google'a yazmayı deneyin. Bu sadece temel bir bakış. Umut ediyorum bu yardım eder.

Let en durumunu dikkate gerileme içinde ileri beslemeli sinir ağları ve bazı gösterim kurarlar.

Let en öngördürücülerin değerleri ifade giriş katmanı . Değerleri birimleri olarak iç katman ile belirtilir için, . Son olarak, çıktı katmanımız var .(x1,,xp)=:(z1(0),,zN0(0))(z1(),,zN())=1,,L1 (y1,,yk)=:(z1(L),,zNL(L))

Ağırlıklar ve yanlılık biriminin katmanında ile belirtilir ve , sırasıyla, , ve .iwij()bi()=1,,Li=1,Nj=1,,N1

Let olması aktivasyon fonksiyonu birimi için katmanında için, ve .gi():RN1Ri=1,,Li=1,N

Yaygın olarak kullanılan aktivasyon fonksiyonları lojistik , ReLU ( pozitif kısım olarak da bilinir ) ve tanhttır .

Şimdi, , katman geçiş işlevlerini tanımlayın burada için .=1,,L

G():RN1RN:(z1(1),,zN1(1))(z1(),,zN()),
zi()=gi()(j=1N1wij()zj(1)+bi()),
i=1,,N

Tüm katmanlardaki tüm birimlerin ağırlık ve sapma kümesini , yani sinir ağımız katman geçiş fonksiyonlarının bileşimi ile elde edilen fonksiyon ailesi : θ

θ={wij(),bi():=1,,L;i=1,N;j=1,,N1},
Gθ:RpRk
Gθ=G(L)G(L1)G(1).

Yukarıdaki açıklamada yer alan herhangi bir olasılık yoktur. Orijinal sinir ağı işinin amacı işlev uydurmadır .

Derin Öğrenmedeki "derin", söz konusu sinir ağlarında birçok iç tabakanın varlığını ifade eder.

Bir verilen eğitim seti , üzerinden en . Tahmini için bazı vektör için in test seti , tahmin edilen cevap basitçe olan, çözüm minimizasyon problemi için bulundu. Bu minimizasyon için altın standart , modern GPU'da bulunan paralelleştirme tesislerini kullanarak TensorFlow kütüphanesi tarafından uygulanan geri yayılımdır.{(xi,yi)Rp×Rk:i=1,,n}

i=1nyiGθ(xi)2,
θxGθ^(x)θ^(projeleriniz için Keras arayüzüne bakın). Ayrıca, artık bu görevleri ( TPU'lar ) kapsayan donanımlar da mevcut . Sinir ağı genel olarak aşırı parametrelendirildiğinden, aşırı sığmayı önlemek için, tarife bir tür düzenlileştirme eklenir, örneğin objektif işleve ceza gibi bir sırt toplamak veya eğitim sırasında bırakma kullanmak . Geoffrey Hinton (Derin Öğrenme Godfather) ve ortak çalışanlar bunların çoğunu icat ettiler. Derin Öğrenmenin başarı öyküleri her yerde.

80'lerin sonunda ve 90'ların başında olasılıklar Gauss olasılığı ve basit (muhtemelen basit) Gauss öncesi, ağdaki tüm ağırlıkların ve önyargıların a priori bağımsızlığını varsayarak :

Lx,y(θ,σ2)σnexp(12σ2i=1nyiGθ(xi)2),
π(θ,σ2)exp(12σ02=1Li=1N((bi())2+j=1N1(wij())2))×π(σ2).

Bu nedenle, ağırlıklar ve yanlılıklar için marjinal öncelikler sıfır ortalama ve ortak varyans ile normal dağılımlardır . Bu orijinal ortak model, çıkarımın daha da zorlaştırılmasıyla çok daha ilgili hale getirilebilir.σ02

Bayesian Derin Öğrenme, karşılık gelen posterior dağılımdan örnekleme zorluğu ile karşı karşıyadır. Bu gerçekleştirildikten sonra, posterior prediktif dağılım ile doğal olarak tahminler yapılır ve bu tahminlerde yer alan belirsizlikler tamamen ölçülür. Bayesian Derin Öğrenme'deki kutsal kâse, verimli ve ölçeklenebilir bir çözümün oluşturulmasıdır. Bu görevde birçok hesaplama yöntemi kullanılmıştır: Metropolis-Hastings ve Gibbs örneklemesi , Hamiltonian Monte Carlo ve son zamanlarda Varyasyon Çıkarımları .

Bazı başarı öyküleri için NIPS konferans videolarına göz atın: http://bayesiandeeplearning.org/

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.