Yapay zeka reinforcement-learning

6

Modelsiz ve model tabanlı pekiştirici öğrenme arasındaki fark nedir?

Modelsiz ve model tabanlı pekiştirici öğrenme arasındaki fark nedir? Bana öyle geliyor ki, deneme-yanılma yoluyla öğrenen herhangi bir model içermeyen öğrenen, model tabanlı olarak yeniden değerlendirilebilir. Bu durumda, mankensiz öğrenciler ne zaman uygun olur?

28 reinforcement-learning comparison model-based model-free

1

Q-öğrenme ve politika gradyanları yöntemleri arasındaki ilişki nedir?

Anladığım kadarıyla, Q-öğrenme ve politika gradyanları (PG), RL problemlerini çözmek için kullanılan iki ana yaklaşımdır. Q-learning, belirli bir durumda yapılan belirli bir eylemin ödülünü tahmin etmeyi amaçlarken, politika gradyanları doğrudan eylemin kendisini tahmin eder. Bununla birlikte, her iki yaklaşım da benim için aynı görünmektedir, yani bir eylem için maksimum ödülü …

21 reinforcement-learning q-learning policy-gradients comparison

4

Takviye öğreniminde geçersiz hareketler nasıl ele alınır?

Arka arkaya beş / gomoku oynayabilen bir yapay zeka yaratmak istiyorum. Başlıkta bahsettiğim gibi, bunun için pekiştirici öğrenmeyi kullanmak istiyorum. Kullandığım ilke gradyan başlangıç ile, yani takviye yöntemi. Değer ve politika işlevi yaklaşımı için bir sinir ağı kullanıyorum . Evrişimli ve tamamen bağlı katmanlara sahiptir. Çıktı hariç tüm katmanlar paylaşılır. …

20 machine-learning reinforcement-learning game-ai combinatorial-games

2

Takviye öğrenimindeki durumlar nasıl tanımlanır?

Takviye öğrenimini ve bunun çeşitlerini inceliyorum. Algoritmaların nasıl çalıştığını ve bir MDP'ye nasıl uygulandıklarını anlamaya başlıyorum. Anlamadığım şey, MDP'nin durumlarını tanımlama sürecidir. Çoğu örnek ve öğreticide, bir ızgara veya benzeri bir kare gibi basit bir şeyi temsil ederler. Yürümeyi öğrenen bir robot gibi daha karmaşık sorunlar için, bu durumları tanımlamaya …

14 reinforcement-learning

2

Numune verimliliği nedir ve bunu başarmak için önem örneklemesi nasıl kullanılabilir?

Örneğin, bu makalenin başlığı şu şekildedir: "Deneyim Tekrarlamalı Örnek Etkin Aktör-Eleştirmen". Numune verimliliği nedir ve bunu başarmak için önem örneklemesi nasıl kullanılabilir?

14 reinforcement-learning statistical-ai importance-sampling

3

Oyun dışında pekiştirici öğrenmenin uygulamaları var mı?

Oyunlar dışındaki uygulamalarda pekiştirici öğrenmeyi öğretmenin bir yolu var mı? İnternette bulabileceğim tek örnek oyun ajanları. VNC'lerin oyunlara girişi takviye ağı üzerinden kontrol ettiğini anlıyorum. Bunu bir CAD yazılımı ile ayarlamak mümkün mü?

13 reinforcement-learning applications

3

Takviye öğrenmede kısıtlı bir eylem alanı nasıl uygulanır?

Tensorflow'un üzerine inşa edilmiş çok iyi Tensorforce kütüphanesi sayesinde bir PPO ajanıyla takviye öğrenme modelini kodluyorum. İlk sürüm çok basitti ve şimdi her adımda tüm eylemlerin mevcut olmadığı daha karmaşık bir ortama daldım. Diyelim ki 5 eylem var ve bunların kullanılabilirliği bir iç duruma (önceki eylem ve / veya yeni …

13 deep-learning reinforcement-learning

1

Takviye öğrenme örneklerinde neden bırakma katmanları görmüyorsunuz?

Takviye öğrenmeye bakıyordum ve özellikle OpenAI Gym AI ile kullanmak için kendi ortamlarımı yaratarak oynuyorum. Onunla test etmek için stable_baselines projesinden ajanlar kullanıyorum. Neredeyse tüm RL örneklerinde fark ettiğim bir şey, hiçbir ağda hiçbir zaman bırakma katmanı olmadığıdır. Bu neden? Döviz fiyatlarını simüle eden bir ortam ve DQN'yi kullanarak ne …

13 machine-learning reinforcement-learning overfitting dropout

1

Takviye Öğrenmeyi PID Kontrolüne karşı ne zaman kullanmalıyım?

OpenAIGym'deki Lunar Lander gibi sorunlara çözüm tasarlarken , Takviye Öğrenme, acenteye başarılı bir şekilde inmek için yeterli eylem kontrolü sağlamanın cazip bir yoludur. Ancak, PID kontrolörleri gibi kontrol sistemi algoritmalarının Takviye Öğrenme'den daha iyi olmasa da yeterli bir iş yapacağı durumlar nelerdir? Gibi sorular bu bir bu soruya teorisini ele …

12 reinforcement-learning ai-design control-theory

1

DQN neden iki farklı ağ gerektirir?

Ben geçiyordu bu DQN uygulanması ve ben on line 124 ve 125 iki farklı Q ağları başlatıldı görüyoruz. Anladığım kadarıyla, bir ağın uygun eylemi ve ikinci ağın Bellman hatasını bulmak için hedef Q değerlerini tahmin ettiğini düşünüyorum. Neden sadece Q değerini tahmin eden ve bunu her iki durumda da kullanan …

12 reinforcement-learning q-learning dqn

2

Q-learning işlev yaklaşımı kullanılırken neden birleşmiyor?

Tablolu Q-öğrenme algoritmasının en uygun olanı bulması garanti edilir QQQ fonksiyonu, Q∗Q∗Q^*, öğrenme oranı ile ilgili aşağıdaki koşulların ( Robbins-Monro koşulları ) sağlanması şartıyla, ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑tαt2(s,a)<∞\sum_{t} \alpha_t^2(s, a) < \infty nerede αt(s,a)αt(s,a)\alpha_t(s, a) güncellenirken kullanılan öğrenme oranı QQQ durumla ilişkili değer sss ve aksiyon aaa zaman …

12 reinforcement-learning q-learning deep-rl proofs function-approximation

3

REINFORCE algoritmasındaki indirim oranı neden iki kez görünüyor?

Takviye Öğrenme: Richard S. Sutton ve Andrew G. Barto'nun Bir Giriş (tam taslak, 5 Kasım 2017) adlı kitabını okuyordum . 271 Sayfasında, epizodik Monte-Carlo Politika-Gradyan Yöntemi için sözde kod sunulmaktadır. Bu sahte kod bakarak ben neden indirim oranı 2 kez, bir kez güncelleme durumunda ve dönüş içinde ikinci kez göründüğünü …

11 reinforcement-learning algorithm rl-an-introduction reinforce

1

ML / RL topluluğunda güncel bir araştırmacı nasıl kalınır?

Makine öğrenimi üzerinde çalışmak isteyen bir öğrenci olarak, eğitimime nasıl başlanabileceğimi ve güncel kalmak için nasıl takip edileceğini bilmek istiyorum. Örneğin, RL ve MAB problemleri üzerinde çalışmaya hazırım, ancak bu konularda büyük literatürler var. Ayrıca, bu konular AI ve ML, Yöneylem Araştırması, Kontrol Mühendisliği, İstatistik vb. Gibi farklı topluluklardan araştırmacılar …

11 machine-learning reinforcement-learning research markov-decision-process

1

Birden fazla sürekli eylem durumunda politika gradyanları nasıl uygulanabilir?

Güvenilen Bölge Politika Optimizasyonu (TRPO) ve Proksimal Politika Optimizasyonu (PPO), en son iki politika gradyan algoritmasıdır. Tek bir sürekli eylem kullanırken, normalde, kayıp işlevi için bazı olasılık dağılımını (örneğin, Gauss) kullanırsınız. Kaba sürüm: L ( θ ) = günlük( P(bir1) ) A ,L(θ)=log⁡(P(a1))A,L(\theta) = \log(P(a_1)) A, nerede birAA ödüllerin avantajı, …

11 deep-learning reinforcement-learning trpo

3

Eğer çevre de stokastikse optimal politika her zaman stokastik midir?

Eğer çevre de stokastik ise, optimal politika her zaman stokastik midir (yani, eyaletlerden eylemler üzerinde olasılık dağılımına bir harita)? Sezgisel olarak, eğer ortam belirleyici ise (yani, etmen bir durumda ise)sss ve harekete geçiyor aaa, sonra bir sonraki eyalet s′s′s' hangi zaman adımı olursa olsun her zaman aynıdır), o zaman optimal …

10 reinforcement-learning stochastic-policy deterministic-policy policy environment

«reinforcement-learning» etiketlenmiş sorular