İstatistikler ve Büyük Veri reinforcement-learning

3

Neden her zaman diğer tüm politikalardan daha iyi veya eşit olan en az bir politika vardır?

Takviye Öğrenimi: Giriş. İkinci baskı, devam ediyor ., Richard S. Sutton ve Andrew G. Barto (c) 2012, s. 67-68. Bir takviye öğrenme görevinin çözülmesi, kabaca uzun vadede çok ödül kazanan bir politika bulmak anlamına gelir. Sonlu MDP'ler için, en uygun politikayı tam olarak aşağıdaki şekilde tanımlayabiliriz. Değer işlevleri, ilkeler üzerinden …

15 markov-process reinforcement-learning

2

Yapay Sinir Ağları kullanarak Q-Learning hakkında sorular

Q-Learning'i aşağıda açıklandığı gibi uyguladım, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Yakl. S (S, A) Aşağıdaki gibi bir sinir ağı yapısı kullanıyorum, Aktivasyon sigmoid Girişler, giriş sayısı + Eylem nöronları için 1 (Tüm Girişler Ölçeklendirilmiş 0-1) Çıkışlar, tek çıkış. Q-Değer N M Gizli Katman sayısı. Keşif yöntemi rastgele 0 <rand () <propExplore Aşağıdaki formülü kullanarak …

14 machine-learning neural-networks reinforcement-learning

1

GAM vs LOESS vs spline

Bağlam : Bu yüzden ben kullanıyorum, parametrik görünmeyen bir ScatterPlot bir çizgi çizmek istiyorum geom_smooth()içinde ggplotde R. geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.Genelleştirilmiş katkı modelleri için GAM …

14 r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

1

Derin Q öğrenmede epizot ve epoch arasındaki fark nedir?

Ben ünlü "Derin Takviye Öğrenme ile Atari Oynama" ( pdf ) adlı makaleyi anlamaya çalışıyorum . Bir dönem ve bölüm arasındaki farktan emin değilim . algoritmada , dış döngü bölümlerin üzerindedir , Şekil x ekseni çağ olarak etiketlenmiştir . Takviye öğrenme bağlamında, bir çağın ne anlama geldiğinden emin değilim. Bir …

14 neural-networks terminology reinforcement-learning q-learning

1

Derin pekiştirici öğrenme neden kararsız?

DeepMind'in 2015 derin takviye öğrenimi makalesinde, "Önceki RL'yi sinir ağları ile birleştirmeye yönelik önceki girişimlerin dengesiz öğrenme nedeniyle büyük ölçüde başarısız olduğunu" belirtmektedir. Bu makalede, gözlemler arasındaki korelasyonlara dayanarak bunun bazı nedenleri listelenmektedir. Lütfen birisi bunun ne anlama geldiğini açıklayabilir mi? Sinir ağının eğitimde mevcut olan, ancak testte bulunmayan bazı …

13 machine-learning neural-networks deep-learning reinforcement-learning

1

N-kollu haydut problemlerini çözmek için en uygun algoritma?

Ben n-silahlı haydut sorunları çözmek için bir dizi algoritmalar hakkında okudum εϵ\epsilon-gözlü, softmax ve UCB1, ama pişmanlığı en aza indirmek için hangi yaklaşımın en iyi olduğunu sıralamakta biraz sorun yaşıyorum. N-kollu haydut problemini çözmek için bilinen bir optimal algoritma var mı? Uygulamada en iyi performansı gösteren algoritma seçeneği var mı?

13 machine-learning reinforcement-learning multiarmed-bandit

2

Deneyimin yeniden yürütülmesi neden ilke dışı algoritma gerektirir?

DQN "Atari'yi Derin Takviye Öğrenimi ile Oynamak " başlıklı makalede şunları söyledi: Deneyim tekrarıyla öğrenirken, Q-öğrenme seçimini motive eden politika dışı (mevcut parametrelerimiz örneği oluşturmak için kullanılanlardan farklı olduğu için) öğrenmenin gerekli olduğunu unutmayın. Ne anlama geldiğini tam olarak anlamadım. Ne Sarsa kullanmak ve eylemi hatırlamıyorsam a'biz almak olan eylem …

12 reinforcement-learning

2

Makine öğrenimi probleminin regresyon çerçevesine çevrilmesi

I , için açıklayıcı değişkenlerinin bir panelinin yanı sıra ikili sonucuna bağlı değişkenlerin bir vektörüne sahip olduğunu . Bu nedenle , daha önceki bir zamanda değil , yalnızca son zamanında gözlenir . Tamamen genel durum, her seferinde her birim için için birden fazla , ama kısalık için durumuna odaklanalım . …

12 regression machine-learning reinforcement-learning

3

Oyun teorisi ve pekiştirici öğrenme arasındaki ilişki nedir?

(Derin) Takviye Öğrenimi (RL) ile ilgileniyorum . Bu alana dalmadan önce Oyun Teorisi (GT) dersini almalıyım ? GT ve RL nasıl ilişkilidir?

12 deep-learning reinforcement-learning game-theory

1

Lineer fonksiyon yaklaşımı ile ağırlıkların Q-değerlerine nasıl sığacağı

Pekiştirme öğrenmesinde doğrusal fonksiyon yaklaşımı genellikle büyük durum uzayları olduğunda kullanılır. (Arama tabloları mümkün olmadığında.) Lineer fonksiyon yaklaşımı ile S -S-Q- değeri formu, Q ( s , a ) = w1f1( s , a ) + w2f2( s , a ) + ⋯ ,S(s,bir)=w1f1(s,bir)+w2f2(s,bir)+⋯,Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) …

12 machine-learning feature-selection reinforcement-learning

2

Monte Carlo yöntemleri zamansal farklılıklara göre ne zaman tercih edilir?

Son zamanlarda Takviye Öğrenimi hakkında birçok araştırma yapıyorum. Sutton & Barto'nun Güçlendirme Öğrenimi: Çoğu için bir Giriş'i takip ettim . Markov Karar Süreçlerinin ne olduğunu ve Dinamik Programlama (DP), Monte Carlo ve Geçici Fark (DP) öğrenmesinin bunları çözmek için nasıl kullanılabileceğini biliyorum. Yaşadığım sorun , Monte Carlo'nun TD öğrenimine göre …

12 monte-carlo reinforcement-learning temporal-difference

1

AlphaGo'nun makalesinde kullanıma sunma politikası nedir?

Kağıt burada . Sunum politikası ... hızlı, aşamalı olarak hesaplanan, yerel desen tabanlı özelliklere dayanan doğrusal bir softmax politikasıdır ... Sunum politikasının ne olduğunu ve bir hamle seçmenin politika ağıyla nasıl bir ilişkisi olduğunu anlamıyorum. Daha basit bir açıklama var mı?

11 machine-learning monte-carlo reinforcement-learning games

1

Fonksiyon yaklaşımı olarak Sinir Ağı ile Q-öğrenme

Sinir Ağları kullanarak Q-Öğrenme ile ilgili Sorular bölümünde olduğu gibi Q-öğrenimindeki Q değerini yaklaşık olarak belirlemek için bir Sinir Ağı kullanmaya çalışıyorum . İlk cevapta önerildiği gibi, çıktı katmanı için doğrusal bir etkinleştirme işlevi kullanıyorum, yine de gizli katmanlarda sigmoid etkinleştirme işlevini kullanıyorum (2, ancak bunu daha sonra değiştirebilirim). Ayrıca …

11 neural-networks reinforcement-learning

1

Bir P (Y | X) modeli, P (X) 'nin iid olmayan örneklerinden ve P (Y | X)' nin iid örneklerinden stokastik eğim alçalması ile eğitilebilir mi?

Bazı veri setlerinde stokastik eğim alçalması ile parametreli bir model (örn. Olasılığı en üst düzeye çıkarmak için) eğitilirken, eğitim örneklerinin eğitim veri dağıtımından alındığı yaygın olarak kabul edilir. Dolayısıyla, bir ortak dağıtım modellemekse , her bir eğitim örneği bu dağıtımdan çıkarılmalıdır.( x i , y i )P(X,Y)P(X,Y)P(X,Y)(xi,yi)(xi,yi)(x_i,y_i) Amaç bunun yerine …

10 machine-learning conditional-probability reinforcement-learning gradient-descent

2

Politika yineleme algoritması neden en uygun ilke ve değer işlevine yakınsar?

Andrew Ng'in pekiştirme öğrenimi hakkındaki ders notlarını okuyordum ve politika yinelemesinin neden ve optimum politika en iyi değer fonksiyonuna dönüştüğünü anlamaya çalışıyordum .V∗V∗V^*π∗π∗\pi^* Politika yinelemesini hatırlayın: Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)}Initialize π randomlyRepeat{Let V:=Vπ \for the …

10 reinforcement-learning policy-iteration

«reinforcement-learning» etiketlenmiş sorular