«reinforcement-learning» etiketlenmiş sorular

Bir algoritmanın, kazanılan ödülleri en üst düzeye çıkarmak için farklı ödüllerle ilişkili eylemleri uyarlayarak eylemler yaparak çevrimiçi ortamın yapısını öğrenebileceği bir dizi dinamik strateji.

3
Neden her zaman diğer tüm politikalardan daha iyi veya eşit olan en az bir politika vardır?
Takviye Öğrenimi: Giriş. İkinci baskı, devam ediyor ., Richard S. Sutton ve Andrew G. Barto (c) 2012, s. 67-68. Bir takviye öğrenme görevinin çözülmesi, kabaca uzun vadede çok ödül kazanan bir politika bulmak anlamına gelir. Sonlu MDP'ler için, en uygun politikayı tam olarak aşağıdaki şekilde tanımlayabiliriz. Değer işlevleri, ilkeler üzerinden …

2
Yapay Sinir Ağları kullanarak Q-Learning hakkında sorular
Q-Learning'i aşağıda açıklandığı gibi uyguladım, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Yakl. S (S, A) Aşağıdaki gibi bir sinir ağı yapısı kullanıyorum, Aktivasyon sigmoid Girişler, giriş sayısı + Eylem nöronları için 1 (Tüm Girişler Ölçeklendirilmiş 0-1) Çıkışlar, tek çıkış. Q-Değer N M Gizli Katman sayısı. Keşif yöntemi rastgele 0 <rand () <propExplore Aşağıdaki formülü kullanarak …

1
GAM vs LOESS vs spline
Bağlam : Bu yüzden ben kullanıyorum, parametrik görünmeyen bir ScatterPlot bir çizgi çizmek istiyorum geom_smooth()içinde ggplotde R. geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.Genelleştirilmiş katkı modelleri için GAM …


1
Derin pekiştirici öğrenme neden kararsız?
DeepMind'in 2015 derin takviye öğrenimi makalesinde, "Önceki RL'yi sinir ağları ile birleştirmeye yönelik önceki girişimlerin dengesiz öğrenme nedeniyle büyük ölçüde başarısız olduğunu" belirtmektedir. Bu makalede, gözlemler arasındaki korelasyonlara dayanarak bunun bazı nedenleri listelenmektedir. Lütfen birisi bunun ne anlama geldiğini açıklayabilir mi? Sinir ağının eğitimde mevcut olan, ancak testte bulunmayan bazı …

1
N-kollu haydut problemlerini çözmek için en uygun algoritma?
Ben n-silahlı haydut sorunları çözmek için bir dizi algoritmalar hakkında okudum εϵ\epsilon-gözlü, softmax ve UCB1, ama pişmanlığı en aza indirmek için hangi yaklaşımın en iyi olduğunu sıralamakta biraz sorun yaşıyorum. N-kollu haydut problemini çözmek için bilinen bir optimal algoritma var mı? Uygulamada en iyi performansı gösteren algoritma seçeneği var mı?

2
Deneyimin yeniden yürütülmesi neden ilke dışı algoritma gerektirir?
DQN "Atari'yi Derin Takviye Öğrenimi ile Oynamak " başlıklı makalede şunları söyledi: Deneyim tekrarıyla öğrenirken, Q-öğrenme seçimini motive eden politika dışı (mevcut parametrelerimiz örneği oluşturmak için kullanılanlardan farklı olduğu için) öğrenmenin gerekli olduğunu unutmayın. Ne anlama geldiğini tam olarak anlamadım. Ne Sarsa kullanmak ve eylemi hatırlamıyorsam a'biz almak olan eylem …



1
Lineer fonksiyon yaklaşımı ile ağırlıkların Q-değerlerine nasıl sığacağı
Pekiştirme öğrenmesinde doğrusal fonksiyon yaklaşımı genellikle büyük durum uzayları olduğunda kullanılır. (Arama tabloları mümkün olmadığında.) Lineer fonksiyon yaklaşımı ile S -S-Q- değeri formu, Q ( s , a ) = w1f1( s , a ) + w2f2( s , a ) + ⋯ ,S(s,bir)=w1f1(s,bir)+w2f2(s,bir)+⋯,Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) …

2
Monte Carlo yöntemleri zamansal farklılıklara göre ne zaman tercih edilir?
Son zamanlarda Takviye Öğrenimi hakkında birçok araştırma yapıyorum. Sutton & Barto'nun Güçlendirme Öğrenimi: Çoğu için bir Giriş'i takip ettim . Markov Karar Süreçlerinin ne olduğunu ve Dinamik Programlama (DP), Monte Carlo ve Geçici Fark (DP) öğrenmesinin bunları çözmek için nasıl kullanılabileceğini biliyorum. Yaşadığım sorun , Monte Carlo'nun TD öğrenimine göre …


1
Fonksiyon yaklaşımı olarak Sinir Ağı ile Q-öğrenme
Sinir Ağları kullanarak Q-Öğrenme ile ilgili Sorular bölümünde olduğu gibi Q-öğrenimindeki Q değerini yaklaşık olarak belirlemek için bir Sinir Ağı kullanmaya çalışıyorum . İlk cevapta önerildiği gibi, çıktı katmanı için doğrusal bir etkinleştirme işlevi kullanıyorum, yine de gizli katmanlarda sigmoid etkinleştirme işlevini kullanıyorum (2, ancak bunu daha sonra değiştirebilirim). Ayrıca …

1
Bir P (Y | X) modeli, P (X) 'nin iid olmayan örneklerinden ve P (Y | X)' nin iid örneklerinden stokastik eğim alçalması ile eğitilebilir mi?
Bazı veri setlerinde stokastik eğim alçalması ile parametreli bir model (örn. Olasılığı en üst düzeye çıkarmak için) eğitilirken, eğitim örneklerinin eğitim veri dağıtımından alındığı yaygın olarak kabul edilir. Dolayısıyla, bir ortak dağıtım modellemekse , her bir eğitim örneği bu dağıtımdan çıkarılmalıdır.( x i , y i )P(X,Y)P(X,Y)P(X,Y)(xi,yi)(xi,yi)(x_i,y_i) Amaç bunun yerine …

2
Politika yineleme algoritması neden en uygun ilke ve değer işlevine yakınsar?
Andrew Ng'in pekiştirme öğrenimi hakkındaki ders notlarını okuyordum ve politika yinelemesinin neden ve optimum politika en iyi değer fonksiyonuna dönüştüğünü anlamaya çalışıyordum .V∗V∗V^*π∗π∗\pi^* Politika yinelemesini hatırlayın: Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)}Initialize π randomlyRepeat{Let V:=Vπ \for the …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.