«neural-networks» etiketlenmiş sorular

Yapay sinir ağları (YSA), biyolojik sinir ağlarına gevşek bir şekilde dayanan geniş bir hesaplama modelleri sınıfıdır. İleri beslemeli NN'leri ("derin" NN'ler dahil), evrişimli NN'leri, tekrarlayan NN'leri, vb.

3
Bir sinir ağında Softmax katmanı
Geri yayılım ile eğitilmiş bir sinir ağına softmax katmanı eklemeye çalışıyorum, bu yüzden degradesini hesaplamaya çalışıyorum. Softmax çıktısı olup , burada , çıkış nöron numarasıdır. jhj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}jjj Eğer türetirsem, o zaman alırım ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Lojistik regresyona benzer. Ancak, sayısal gradyan kontrolüm başarısız olduğu için bu yanlış. Neyi yanlış yapıyorum? Çapraz …

2
Sinir ağında maxout nedir?
Bir sinir ağındaki maxout birimlerinin ne yaptığını açıklayan var mı? Nasıl performans gösterirler ve geleneksel birimlerden nasıl farklıdırlar? Goodfellow ve arkadaşlarının 2013 "Maxout Network" belgesini okumaya çalıştım . (Profesör Yoshua Bengio'nun grubundan), ama tam olarak anlamadım.

1
Yapay Sinir Ağları: kilo değişimi momentum ve kilo kaybı
Momentum , ardışık yinelemelere göre ağırlık değişimlerindeki dalgalanmaları azaltmak için kullanılır:αα\alpha D(a), bir hata fonksiyonuw- ağırlıklarının vektörüη- öğrenme oranı.Δ ωben( t + 1 ) = - η∂E∂wben+ α Δ ωben( t ) ,Δωben(t+1)=-η∂E∂wben+αΔωben(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E( w )E(w)E({\bf w})ww{\bf w}ηη\eta Ağırlık azalması , ağırlık …

4
Neden sigmoid başka bir şey yerine çalışıyor?
Neden fiili standart sigmoid fonksiyonu, 11+e−x11+e−x\frac{1}{1+e^{-x}} , (derin olmayan) sinir ağlarında ve lojistik regresyonda çok mu popüler? Neden daha hızlı işlem süresi veya daha yavaş bozunma ile diğer türetilebilir fonksiyonların birçoğunu kullanmıyoruz (bu yüzden kaybolma derecesi daha az gerçekleşir). Sigmoid fonksiyonları hakkında birkaç örnek Wikipedia'da . Yavaş yavaş bozulan ve …

3
Gizli Markov modelleri ve sinir ağları arasındaki farklar nelerdir?
Sadece ayaklarımın istatistiklerini ıslattığım için üzgünüm, eğer bu soru mantıklı gelmiyorsa. Gizli aramaları (haksız kumarhaneler, zar atma vb.) Ve sinir ağlarını tahmin etmek için Markov modellerini ve kullanıcıların arama motorundaki tıklamaları incelemek için kullandım. Her ikisinde de gözlemleri kullanarak çözmeye çalıştığımız gizli durumlar vardı. Anladığım kadarıyla ikisi de gizli durumları …

4
Doğrusal aktivasyon fonksiyonu, sinir ağlarında kaybolan gradyan problemini nasıl çözer?
Rektifiye doğrusal ünite (ReLU) sinir ağları için kaybolma degrade sorununa bir çözüm olarak çeşitli yerlerde övgüde bulundu . Yani aktivasyon fonksiyonu olarak max (0, x) kullanılır. Aktivasyon pozitif olduğunda, bunun, sigmoid aktivasyon fonksiyonundan daha iyi olduğu açıktır, çünkü türetilmesi, büyük x için keyfi olarak küçük bir değer yerine her zaman …

7
Yapay sinir ağlarında veri normalleşmesi ve standardizasyon
Sinir ağlarını (YSA) kullanarak karmaşık bir sistemin sonucunu tahmin etmeye çalışıyorum. Sonuç (bağımlı) değerler 0 ile 10,000 arasındadır. Farklı giriş değişkenlerinin farklı aralıkları vardır. Tüm değişkenler kabaca normal dağılımlara sahiptir. Antrenmandan önce verileri ölçeklendirmek için farklı seçenekler düşünüyorum. Bir seçenek, her değişkenin ortalama ve standart sapma değerlerini bağımsız olarak kullanarak …


5
Bir sinir ağının ne yaptığını görselleştirmek / anlamak?
Yapay sinir ağları genellikle karmaşık yapıları nedeniyle "kara kutular" olarak ele alınır. Bu, ideal değildir, çünkü bir modelin şirket içinde nasıl çalıştığını sezgisel bir şekilde kavramak faydalıdır. Eğitimli bir sinir ağının nasıl çalıştığını görselleştirme yöntemleri nelerdir? Alternatif olarak, ağın kolayca sindirilebilir tanımlarını nasıl çıkarabiliriz (örn. Bu gizli düğüm öncelikle bu …

7
Düzenleme neden Derin Sinir Ağlarını veri açlığına dönüştürmüyor?
Genel olarak Sinir Ağları ve özellikle de Derin Sinir Ağları bağlamında sıkça gündeme getirdiğim bir sorun, onların "aç veri" olduğudur - büyük bir veri setimiz olmadığı sürece iyi performans göstermiyorlar. hangi ağı eğitmek için. Anladığım kadarıyla, bunun NNets'in, özellikle Deep NNets'in çok fazla serbestlik derecesine sahip olmasından kaynaklanıyor olmasıdır. Dolayısıyla, …


4
Sinir ağım iyi genelleşmiyorsa ne yapmalıyım?
Sinir ağını eğitiyorum ve eğitim kaybı azaldı, ancak doğrulama kaybı çok benzer mimarilere ve verilere sahip referanslara veya deneylere dayanarak beklediğimden çok daha az değil veya azalıyor. Bunu nasıl düzeltebilirim? Soru gelince Sinir ağım öğrenemediğinde ne yapmalıyım? Bu sorunun ilham aldığı soru genel olarak bırakılmıştır, böylece bir sinir ağının genelleme …

3
Makine Öğrenimi: İkili tahminler için kategorik bir çapraz entropi veya ikili çapraz entropi kaybı kullanmalı mıyım?
Öncelikle, ikili tahminler yapmam gerekirse, tek bir sıcak kodlama gerçekleştirerek en az iki sınıf oluşturmam gerektiğini fark ettim. Bu doğru mu? Ancak, ikili çapraz entropi sadece bir sınıf içeren tahminler için mi? Genelde çoğu kütüphanede (TensorFlow gibi) bulunan kategorik bir çapraz entropi kaybı kullansaydım, önemli bir fark olur mu? Aslında, …

5
Sinir ağının maliyet fonksiyonu dışbükey mi?
Maliyet fonksiyonu sinir ağı ait ve olduğu iddia edilen dışbükey . Neden böyle olduğunu anlamıyorum, çünkü lojistik regresyonun maliyet fonksiyonuna oldukça benzer olduğunu görüyorum, değil mi?J( W, B )J(W,b)J(W,b) Dışbükey değilse, 2. derece türevi , değil mi?∂J∂W&lt; 0∂J∂W&lt;0\frac{\partial J}{\partial W} < 0 GÜNCELLEŞTİRME Aşağıda verilen cevaplar ve @ gung'un yorumuna …

4
LSTM, kaybolma gradyan problemini nasıl önler?
LSTM, kaybolan degrade sorununu önlemek için özel olarak icat edildi. Bunu, aşağıdaki diyagramdaki ( Greff ve diğerleri ) hücre çevresindeki halkaya karşılık gelen Sabit Hata Atlıkarınca (CEC) ile yapması gerekiyordu . (kaynak: deeplearning4j.org ) Ve o kısmın bir çeşit kimlik işlevi olarak görülebildiğini anlıyorum, bu yüzden türev bir ve gradyan …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.