«deep-learning» etiketlenmiş sorular

temel olarak derin sinir ağları (yani iki veya daha fazla gizli katmana sahip ağlar) ile değil, aynı zamanda bir çeşit Olasılıksal Grafik Model ile yapılan verilerin hiyerarşik temsillerini öğrenmek için kullanılan teknolojilerle ilgili yeni bir Makine Öğrenimi araştırması alanı.

5
Yapay sinir ağlarında “ölen ReLU” sorunu nedir?
Stanford kursuna atıfta bulunan Görsel Tanıma Konvolüsyonel Sinir Ağları ile ilgili notlara bakınız. “Maalesef, ReLU üniteleri eğitim sırasında kırılgan olabilir ve“ ölebilir ”. Örneğin, bir ReLU nöronundan akan büyük bir gradyan ağırlığın, nöronun herhangi bir veri noktasında tekrar aktive olmayacağı şekilde güncellenmesine neden olabilir. gerçekleşirse, ünite boyunca akan gradyan sonsuza …

6
GRU LSTM üzerinden ne zaman kullanılır?
Bir GRU ve bir LSTM arasındaki temel fark, bir GRU’nun iki kapısına ( sıfırlama ve güncelleme kapıları) sahip olmasıdır; oysa, bir LSTM’de üç kapı ( giriş , çıkış ve unutma kapıları) vardır. LSTM modeli ile ağ üzerinde daha fazla kontrole sahip olduğumuzda neden GRU'dan faydalanıyoruz (üç kapımız olduğu gibi)? Hangi …

8
Bir öğrenme oranı seçme
Şu anda, SGDgeri yayılım kullanan sinir ağları için , Stokastik Degrade İnişini uygulamak için çalışıyorum ve amacını anladığım sırada, öğrenme oranı için nasıl değer seçileceği konusunda bazı sorularım var. Öğrenme oranı, iniş oranını belirttiği için hata gradyanının şekliyle ilişkili midir? Eğer öyleyse, bu bilgiyi bir değer hakkında kararınızı bildirmek için …



5
ARIMA ve LSTM kullanarak zaman serisi tahmini
Uğraştığım sorun zaman serisi değerlerini tahmin etmektir. Bir seferde bir zaman serisine bakıyorum ve örneğin girdi verilerinin% 15'ine dayanarak gelecekteki değerlerini tahmin etmek istiyorum. Şimdiye kadar iki modelle karşılaştım: LSTM (uzun kısa süreli hafıza; tekrarlayan sinir ağları sınıfı) ARİMA İkisini de denedim ve bunlarla ilgili bazı makaleler okudum. Şimdi ikisini …

2
Ne zaman kullanılmalı (He veya Glorot) düzgün init üzerinden normal başlatma? Ve Toplu Normalleştirme ile etkileri nelerdir?
Artık Ağın (ResNet) O'nun normal kullanıma hazırlanmasını popüler yaptığını biliyordum. ResNet'te He normal başlatma, ilk katman He üniforma başlatmayı kullanır. ResNet makalesine ve "Doğrultucuların Derinliklerine Çıkarma" kağıdına baktım. Ayrıca: Toplu Normalleştirme, çok daha yüksek öğrenme oranları kullanmamızı ve başlatma konusunda daha az dikkatli olmamızı sağlar. Toplu Normalleştirme makalesinin özetinde, Toplu …

3
Derin bir sinir ağında donatı ile mücadele nasıl
Yapay sinir ağları (NN) ile başladığımda, asıl sorun olarak fazla donmakla savaşmam gerektiğini düşündüm. Ancak uygulamada NN'imin% 20 hata oranı engelini aşmasını bile sağlayamıyorum. Rasgele ormandaki puanımı bile geçemiyorum! NN'in verilerdeki trendleri yakalamaya başlaması için ne yapılması gerektiği konusunda çok genel veya çok genel bir tavsiye arıyorum. NN uygulanması için …

3
LSTM modelinde parametre sayısı
Tek bir istiflenmiş LSTM'nin kaç parametresi vardır? Parametre sayısı, gereken eğitim örneği sayısına daha düşük bir sınır uygular ve ayrıca eğitim süresini etkiler. Bu nedenle, parametre sayısını bilmek LSTM'leri kullanan eğitim modelleri için kullanışlıdır.

4
Zaman Serisi Modeline LSTM Özellik Ekleme
LSTM'leri ve zaman serileri için kullanımlarını biraz okumakta ve aynı zamanda ilginç fakat zor olmuştur. Anlamakta güçlük çektiğim bir şey, zaman serisi özelliklerinin bir listesine ek özellikler eklemeye yaklaşmak. Veri kümenizi şu şekilde ayarladığınızı varsayalım: t-3, t-2, t-1 Çıkış Şimdi çıktınızı etkileyen bir özelliğiniz olduğunu bilmenizi sağlar, ancak bunun zaman …

4
Mini seri boyutu neden tüm eğitim verilerinde tek bir "seri" den daha iyidir?
Derin Öğrenme modelleri durumunda, olağan uygulamanın, birkaç eğitim dönemi boyunca mini partiler (genellikle küçük bir, 32/64) uygulamak olduğunu sık sık okurum. Bunun arkasındaki nedeni gerçekten anlayamıyorum. Yanılmıyorsam, toplu iş boyutu, model tarafından bir eğitim yinelemesi sırasında görülebilen eğitim örneği sayısıdır; ve eğitim örnekleri, eğitim durumlarının her biriyle görüldüğünde, devir tam …

3
Keras'taki batch_size, sonuçların kalitesini etkiliyor mu?
2-3 milyon makale içeren büyük bir LSTM ağı eğitmek üzereyim ve Bellek Hatalarıyla mücadele ediyorum (AWS EC2 g2x2large kullanıyorum). Bir çözümün bunu azaltmak olduğunu öğrendim batch_size. Ancak, bu parametrenin yalnızca bellek verimliliği sorunlarıyla mı ilgili olduğunu veya sonuçlarımı etkileyip etkilemediğinden emin değilim. Nitekim, batch_sizeörneklerde kullanılanın ikisinin de gücü olduğunu, anlamadığım …

3
“Çeviriye Eşdeğer” ile “Çeviriye Değişmeyen” arasındaki fark nedir
Ben sorun arasındaki farkı anlamak yaşıyorum çeviri equivariant ve çeviri değişmez . Derin Öğrenme kitabında . MIT Press, 2016 (I. Goodfellow, A. Courville ve Y. Bengio), evrişimsel ağlarda bulabilirsiniz: [...] belirli parametre paylaşım biçimi, katmanın çeviriye eşdeğerlik denilen bir özelliğe sahip olmasına neden olur [...] havuzlama, gösterimin girdilerin küçük çevirileri …


6
Çapraz entropi kaybı açıklaması
Diyelim ki sınıflandırma için bir NN yapıyorum. Son katman, softmax aktivasyonuna sahip bir Yoğun katmandır. Sınıflandırmam gereken beş farklı sınıfım var. Tek bir eğitim örneğin varsayalım, true labelolduğu [1 0 0 0 0]tahminlerin olmak iken [0.1 0.5 0.1 0.1 0.2]. Bu örnek için çapraz entropi kaybını nasıl hesaplardım?

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.