İstatistikler ve Büyük Veri q-learning

4

Q-Learning test sırasında neden epsilon-greedy kullanıyor?

DeepMind'in Atari video oyunları için Deep Q-Learning ( burada ) makalesinde, eğitim sırasında keşif için epsilon açgözlü bir yöntem kullanıyorlar. Bu, eğitimde bir eylem seçildiğinde, en yüksek q değerine sahip eylem veya rastgele bir eylem olarak seçildiği anlamına gelir. Bu ikisi arasında seçim yapmak rastgele ve epsilon'un değerine dayalıdır ve …

18 machine-learning reinforcement-learning q-learning deep-rl

2

Q-öğreniminde neden Q harfi seçildi?

Neden Q harfi Q-öğrenme adına seçildi? Çoğu harfler gibi bir kısaltma olarak seçilmiştir ππ\pi politikası ve için ayakta vvv değeri simgeler. Ama Q'nun herhangi bir kelimenin kısaltması olduğunu düşünmüyorum.

17 terminology reinforcement-learning history q-learning

1

Derin Q öğrenmede epizot ve epoch arasındaki fark nedir?

Ben ünlü "Derin Takviye Öğrenme ile Atari Oynama" ( pdf ) adlı makaleyi anlamaya çalışıyorum . Bir dönem ve bölüm arasındaki farktan emin değilim . algoritmada , dış döngü bölümlerin üzerindedir , Şekil x ekseni çağ olarak etiketlenmiştir . Takviye öğrenme bağlamında, bir çağın ne anlama geldiğinden emin değilim. Bir …

14 neural-networks terminology reinforcement-learning q-learning

1

Takviye Öğrenme Algoritmalarına Genel Bakış

Şu anda Takviye Öğrenme Algoritmalarına Genel Bakış ve belki de bunların bir sınıflandırmasını arıyorum. Ancak Sarsa ve Q-Learning + Deep Q-Learning'in yanında gerçekten popüler bir algoritma bulamıyorum. Vikipedi bana farklı genel Takviye Öğrenme Yöntemleri hakkında genel bir bakış sunuyor, ancak bu yöntemleri uygulayan farklı algoritmalara referans yok. Ama belki genel …

9 reinforcement-learning q-learning

2

Sabit olmayan ortamda güçlendirme öğrenme [kapalı]

Kapalı . Bu sorunun daha fazla odaklanması gerekiyor . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu, yalnızca bu yayını düzenleyerek tek bir soruna odaklanacak şekilde güncelleyin . 28 gün önce kapalı . S1: Genel olarak Takviye öğreniminde sabit olmayan ortamla başa çıkmak için ortak veya kabul …

9 markov-process reinforcement-learning stationarity q-learning

4

Cox tehlike modeli hayatta kalma eğrisini nasıl yorumlayabilirim?

Cox orantılı tehlike modelinden sağkalım eğrisini nasıl yorumluyorsunuz? Bu oyuncak örneğinde, verilerdeki agedeğişken üzerinde bir cox orantılı tehlike modelimiz olduğunu kidneyve hayatta kalma eğrisini oluşturduğumuzu varsayalım . library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Örneğin, zamanında hangi ifade doğrudur? ya da her ikisi de yanlış mı?200200200 Bildirim 1:% …

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

1

Her işlem için bir çıktı birimi olduğunda Sinir Ağları ile Q-öğrenme ne kadar etkilidir?

Arka plan: Güçlendirme öğrenme görevimde Sinir Ağı Q-değeri yaklaşımını kullanıyorum. Yaklaşım, bu soruda açıklananla tamamen aynıdır , ancak sorunun kendisi farklıdır. Bu yaklaşımda çıktıların sayısı, gerçekleştirebileceğimiz eylemlerin sayısıdır. Ve basit bir deyişle, algoritma aşağıdaki gibidir: A eylemini yapın, ödülü keşfedin, NN'den tüm olası eylemler için Q değerlerini tahmin etmesini isteyin, …

9 machine-learning neural-networks reinforcement-learning q-learning

«q-learning» etiketlenmiş sorular