İstatistikler ve Büyük Veri lstm

4

LSTM, kaybolma gradyan problemini nasıl önler?

LSTM, kaybolan degrade sorununu önlemek için özel olarak icat edildi. Bunu, aşağıdaki diyagramdaki ( Greff ve diğerleri ) hücre çevresindeki halkaya karşılık gelen Sabit Hata Atlıkarınca (CEC) ile yapması gerekiyordu . (kaynak: deeplearning4j.org ) Ve o kısmın bir çeşit kimlik işlevi olarak görülebildiğini anlıyorum, bu yüzden türev bir ve gradyan …

35 neural-networks lstm

5

LSTM birimlerini hücrelere karşı anlama

Bir süredir LSTM'leri inceliyorum. Her şeyin nasıl çalıştığını yüksek düzeyde anlıyorum. Ancak, onları Tensorflow kullanarak uygulayacağım BasicLSTMCell'in bir dizi birim (yani num_units) parametresi gerektirdiğini fark ettim . Gönderen bu LSTMs arasında çok kapsamlı bir açıklama, tek bir olduğunu topladık LSTM birimi aşağıdakilerden biridir ki bu aslında bir GRU birimidir. Bunun …

32 neural-networks terminology lstm rnn tensorflow

1

Eğitim kaybı azalır ve tekrar yükselir. Ne oluyor?

Eğitim kaybım azaldı ve sonra tekrar yükseldi. Bu çok garip. Çapraz doğrulama kaybı, eğitim kaybını izler. Ne oluyor? Aşağıdaki gibi iki yığılmış LSTMS var (Keras'larda): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') 100 dönem için eğitiyorum: model.fit(X_train, np.array(y_train), batch_size=1024, nb_epoch=100, validation_split=0.2) 127803 …

26 machine-learning neural-networks loss-functions lstm

3

Çoklu LSTM'leri istiflemenin avantajları nelerdir?

Avantajları nelerdir, neden biri yan yana yığılmış birden fazla LSTM'yi derin ağda kullanmalı? Bir giriş dizisini tek bir giriş olarak göstermek için bir LSTM kullanıyorum. Öyleyse bir kez bu tek temsilciliği elde ettiğimde neden tekrar geçeyim? Bunu soruyorum çünkü bunu bir doğal dil oluşturma programında gördüm.

25 classification neural-networks deep-learning lstm rnn

1

Dikkat mekanizmaları tam olarak nedir?

Son birkaç yılda çeşitli Derin Öğrenme makalelerinde dikkat mekanizmaları kullanılmıştır. Open AI araştırma başkanı Ilya Sutskever onları coşkuyla övdü: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Purdue Üniversitesi'nden Eugenio Culurciello, RNN'lerin ve LSTM'lerin tamamen dikkat odaklı sinir ağları lehine terk edilmesi gerektiğini iddia etti: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Bu bir abartı gibi gözüküyor, ancak tamamen dikkat temelli modellerin sıra …

23 time-series deep-learning lstm rnn attention

3

Keras ile LSTM'deki input_shape parametresini anlama

"Sıra sınıflandırması için Yığılmış LSTM" (aşağıdaki kodu bakın) adlı Keras belgelerinde açıklanan örneği kullanmaya çalışıyorum ve input_shapeverilerim bağlamında parametre anlayamıyorum . Ben girdi olarak maksimum uzunluğu 31 dolgulu bir diziye tamsayılar kodlanmış 25 olası karakter dizisi bir matris var. Sonuç olarak, benim x_trainşekil (1085420, 31)anlamı vardır (n_observations, sequence_length). from keras.models …

20 lstm keras shape dimensions

4

Geri besleme RNN ve LSTM / GRU arasındaki fark

Zaman serisi verilerine uygulanacak farklı Tekrarlayan sinir ağı (RNN) mimarilerini anlamaya çalışıyorum ve RNN'leri tanımlarken sıklıkla kullanılan farklı isimlerle biraz karışıyorum. Uzun kısa süreli bellek (LSTM) ve Geçitli Tekrarlanan Birim (GRU) yapısı temelde bir geri besleme döngüsüne sahip bir RNN mi?

20 neural-networks lstm rnn

2

LSTM'ler için en iyi hangi optimizasyon yöntemleri işe yarıyor?

LSTM'leri denemek için theano kullanıyorum ve LSTM'ler için hangi optimizasyon yöntemlerinin (SGD, Adagrad, Adadelta, RMSprop, Adam, vb.) En iyi sonucu merak ediyordum? Bu konuda herhangi bir araştırma makalesi var mı? Ayrıca, cevap LSTM için kullandığım uygulamanın türüne bağlı mı? Eğer öyleyse, metin sınıflandırma (metnin ilk kelime vektörlerine dönüştürüldüğü yer) için …

20 machine-learning neural-networks optimization lstm

3

RNN / LSTM ağlarının ağırlıkları neden zaman içinde paylaşılıyor?

Son zamanlarda LSTM'lerle ilgilenmeye başladım ve ağırlıkların zaman içinde paylaşıldığını öğrenmek beni şaşırttı. Ağırlıkları zaman içinde paylaşırsanız, giriş zamanı dizilerinizin değişken bir uzunluk olabileceğini biliyorum. Paylaşılan ağırlıklarla antrenman yapmak için daha az parametreye sahipsiniz. Anladığım kadarıyla, bir başka öğrenme yöntemine karşı bir LSTM'ye dönüşmesinin nedeni, verilerinizde öğrenmek istediğiniz bir tür …

20 machine-learning lstm rnn

3

Zamanlama vektörlerini tahmin etmek için RNN (LSTM) kullanma (Theano)

Çok basit bir sorunum var ama bunu çözmek için doğru bir araç bulamıyorum. Aynı uzunlukta bazı vektörler dizilim var. Şimdi bu dizilerin tren örnek LSTM RYSA tren ve sonra uzunluğu vektörleri yeni dizisini tahmin yapmak isteyen birkaç göre hazırlama vektörleri.nnn Bunu yapacak basit bir uygulama bulamıyorum. Temel dilim Python, ancak …

19 neural-networks python lstm

3

Sinir ağındaki örnekler, zaman adımları ve özellikler arasındaki fark

LSTM sinir ağında aşağıdaki blogdan geçiyorum: http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/ Yazar, giriş vektörü X'i LSTM'lerin farklı konfigürasyonu için [örnekler, zaman adımları, özellikler] olarak yeniden şekillendirir. Yazar yazar Aslında, harf dizileri ayrı özelliklerin bir zaman basamağı yerine bir unsurun zaman basamaklarıdır. Ağa daha fazla bağlam verdik, ancak beklediğimizden daha fazla sıralama yapmadık Ne anlama …

17 neural-networks lstm rnn tensorflow tensor

1

RNN'ler: BPTT ne zaman uygulanır ve / veya ağırlıklar güncellenir?

Ben (diğerleri arasında) Graves 'foneme sınıflandırma 2005 makalesi üzerinden etiketleme RNNs üst düzey uygulama anlamaya çalışıyorum . Sorunu özetlemek gerekirse: Tek cümlelerin (giriş) ses dosyalarından ve (çıktı) uzman etiketli başlangıç zamanlarından, durma zamanlarından ve tek tek telefon seslerinin etiketlerinden (sessizlik gibi birkaç "özel" telefonemden oluşan büyük bir eğitim setimiz var, …

16 lstm rnn

1

Bir RNN'nin modellenmesi için uygulanabilir bir dizi uzunluğu nedir?

Ben zamanlamaları verileri modelleme için tekrarlayan bir sinir ağının (RNN) bir LSTM ( uzun kısa süreli bellek ) sürümünü kullanarak bakıyorum . Verilerin sıra uzunluğu arttıkça, ağın karmaşıklığı da artar. Bu nedenle, hangi dizilerin uzunluğunun iyi bir doğrulukla modellenmesi mümkün olacağını merak ediyorum? LSTM'nin nispeten basit bir versiyonunu, en son …

15 neural-networks deep-learning lstm

1

Küçük veri kümesinde LSTM'nin aşırı takılmasını önleme

80 boyutlu bir word2vec benzeri temsil kullanarak 128 gizli birimleri ile tek bir katman LSTM kullanarak duygu tahmini için 15000 tweet modelleme. 1 çağdan sonra bir iniş doğruluğu (rastgele% 38 =% 20) alıyorum. Daha fazla eğitim, eğitim doğruluğu tırmanmaya başladığında doğrulama doğruluğunun azalmaya başlamasını sağlar - açık bir aşırı sığdırma …

13 deep-learning regularization overfitting lstm

1

Derin ağ LSTM katmanı nasıl eğitilir

Metin sınıflandırmak için bir lstm ve ileri beslemeli ağ kullanıyorum. Metni tek sıcak vektörlere dönüştürüyorum ve her birini lstm'ye besliyorum, böylece tek bir gösterim olarak özetleyebiliyorum. Sonra diğer ağa besliyorum. Ama lstm'yi nasıl eğitebilirim? Metni sıralamak istiyorum - eğitim yapmadan mı beslemeliyim? Ben sadece sınıflandırıcı giriş katmanına besleyebilir tek bir …

13 classification neural-networks deep-learning lstm

«lstm» etiketlenmiş sorular