«reinforcement-learning» etiketlenmiş sorular

Dışarıdan olumlu pekiştirme veya olumsuz geribildirim sinyali veya her ikisi tarafından kontrol edilen öğrenmeyle ilgili sorular için, şimdiye kadar öğrenilenlerin öğrenilmesi ve kullanılması aynı anda gerçekleşir.


1
Q-öğrenme ve politika gradyanları yöntemleri arasındaki ilişki nedir?
Anladığım kadarıyla, Q-öğrenme ve politika gradyanları (PG), RL problemlerini çözmek için kullanılan iki ana yaklaşımdır. Q-learning, belirli bir durumda yapılan belirli bir eylemin ödülünü tahmin etmeyi amaçlarken, politika gradyanları doğrudan eylemin kendisini tahmin eder. Bununla birlikte, her iki yaklaşım da benim için aynı görünmektedir, yani bir eylem için maksimum ödülü …

4
Takviye öğreniminde geçersiz hareketler nasıl ele alınır?
Arka arkaya beş / gomoku oynayabilen bir yapay zeka yaratmak istiyorum. Başlıkta bahsettiğim gibi, bunun için pekiştirici öğrenmeyi kullanmak istiyorum. Kullandığım ilke gradyan başlangıç ile, yani takviye yöntemi. Değer ve politika işlevi yaklaşımı için bir sinir ağı kullanıyorum . Evrişimli ve tamamen bağlı katmanlara sahiptir. Çıktı hariç tüm katmanlar paylaşılır. …

2
Takviye öğrenimindeki durumlar nasıl tanımlanır?
Takviye öğrenimini ve bunun çeşitlerini inceliyorum. Algoritmaların nasıl çalıştığını ve bir MDP'ye nasıl uygulandıklarını anlamaya başlıyorum. Anlamadığım şey, MDP'nin durumlarını tanımlama sürecidir. Çoğu örnek ve öğreticide, bir ızgara veya benzeri bir kare gibi basit bir şeyi temsil ederler. Yürümeyi öğrenen bir robot gibi daha karmaşık sorunlar için, bu durumları tanımlamaya …




1
Takviye öğrenme örneklerinde neden bırakma katmanları görmüyorsunuz?
Takviye öğrenmeye bakıyordum ve özellikle OpenAI Gym AI ile kullanmak için kendi ortamlarımı yaratarak oynuyorum. Onunla test etmek için stable_baselines projesinden ajanlar kullanıyorum. Neredeyse tüm RL örneklerinde fark ettiğim bir şey, hiçbir ağda hiçbir zaman bırakma katmanı olmadığıdır. Bu neden? Döviz fiyatlarını simüle eden bir ortam ve DQN'yi kullanarak ne …

1
Takviye Öğrenmeyi PID Kontrolüne karşı ne zaman kullanmalıyım?
OpenAIGym'deki Lunar Lander gibi sorunlara çözüm tasarlarken , Takviye Öğrenme, acenteye başarılı bir şekilde inmek için yeterli eylem kontrolü sağlamanın cazip bir yoludur. Ancak, PID kontrolörleri gibi kontrol sistemi algoritmalarının Takviye Öğrenme'den daha iyi olmasa da yeterli bir iş yapacağı durumlar nelerdir? Gibi sorular bu bir bu soruya teorisini ele …

1
DQN neden iki farklı ağ gerektirir?
Ben geçiyordu bu DQN uygulanması ve ben on line 124 ve 125 iki farklı Q ağları başlatıldı görüyoruz. Anladığım kadarıyla, bir ağın uygun eylemi ve ikinci ağın Bellman hatasını bulmak için hedef Q değerlerini tahmin ettiğini düşünüyorum. Neden sadece Q değerini tahmin eden ve bunu her iki durumda da kullanan …

2
Q-learning işlev yaklaşımı kullanılırken neden birleşmiyor?
Tablolu Q-öğrenme algoritmasının en uygun olanı bulması garanti edilir QQQ fonksiyonu, Q∗Q∗Q^*, öğrenme oranı ile ilgili aşağıdaki koşulların ( Robbins-Monro koşulları ) sağlanması şartıyla, ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty nerede αt(s,a)αt(s,a)\alpha_t(s, a) güncellenirken kullanılan öğrenme oranı QQQ durumla ilişkili değer sss ve aksiyon aaa zaman …

3
REINFORCE algoritmasındaki indirim oranı neden iki kez görünüyor?
Takviye Öğrenme: Richard S. Sutton ve Andrew G. Barto'nun Bir Giriş (tam taslak, 5 Kasım 2017) adlı kitabını okuyordum . 271 Sayfasında, epizodik Monte-Carlo Politika-Gradyan Yöntemi için sözde kod sunulmaktadır. Bu sahte kod bakarak ben neden indirim oranı 2 kez, bir kez güncelleme durumunda ve dönüş içinde ikinci kez göründüğünü …

1
ML / RL topluluğunda güncel bir araştırmacı nasıl kalınır?
Makine öğrenimi üzerinde çalışmak isteyen bir öğrenci olarak, eğitimime nasıl başlanabileceğimi ve güncel kalmak için nasıl takip edileceğini bilmek istiyorum. Örneğin, RL ve MAB problemleri üzerinde çalışmaya hazırım, ancak bu konularda büyük literatürler var. Ayrıca, bu konular AI ve ML, Yöneylem Araştırması, Kontrol Mühendisliği, İstatistik vb. Gibi farklı topluluklardan araştırmacılar …

1
Birden fazla sürekli eylem durumunda politika gradyanları nasıl uygulanabilir?
Güvenilen Bölge Politika Optimizasyonu (TRPO) ve Proksimal Politika Optimizasyonu (PPO), en son iki politika gradyan algoritmasıdır. Tek bir sürekli eylem kullanırken, normalde, kayıp işlevi için bazı olasılık dağılımını (örneğin, Gauss) kullanırsınız. Kaba sürüm: L ( θ ) = günlük( P(bir1) ) A ,L(θ)=log⁡(P(a1))A,L(\theta) = \log(P(a_1)) A, nerede birAA ödüllerin avantajı, …

3
Eğer çevre de stokastikse optimal politika her zaman stokastik midir?
Eğer çevre de stokastik ise, optimal politika her zaman stokastik midir (yani, eyaletlerden eylemler üzerinde olasılık dağılımına bir harita)? Sezgisel olarak, eğer ortam belirleyici ise (yani, etmen bir durumda ise)sss ve harekete geçiyor aaa, sonra bir sonraki eyalet s′s′s' hangi zaman adımı olursa olsun her zaman aynıdır), o zaman optimal …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.