«reinforcement-learning» etiketlenmiş sorular

Bir algoritmanın, kazanılan ödülleri en üst düzeye çıkarmak için farklı ödüllerle ilişkili eylemleri uyarlayarak eylemler yaparak çevrimiçi ortamın yapısını öğrenebileceği bir dizi dinamik strateji.

1
Takviye Öğrenme Algoritmalarına Genel Bakış
Şu anda Takviye Öğrenme Algoritmalarına Genel Bakış ve belki de bunların bir sınıflandırmasını arıyorum. Ancak Sarsa ve Q-Learning + Deep Q-Learning'in yanında gerçekten popüler bir algoritma bulamıyorum. Vikipedi bana farklı genel Takviye Öğrenme Yöntemleri hakkında genel bir bakış sunuyor, ancak bu yöntemleri uygulayan farklı algoritmalara referans yok. Ama belki genel …


4
Cox tehlike modeli hayatta kalma eğrisini nasıl yorumlayabilirim?
Cox orantılı tehlike modelinden sağkalım eğrisini nasıl yorumluyorsunuz? Bu oyuncak örneğinde, verilerdeki agedeğişken üzerinde bir cox orantılı tehlike modelimiz olduğunu kidneyve hayatta kalma eğrisini oluşturduğumuzu varsayalım . library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Örneğin, zamanında hangi ifade doğrudur? ya da her ikisi de yanlış mı?200200200 Bildirim 1:% …

1
Her işlem için bir çıktı birimi olduğunda Sinir Ağları ile Q-öğrenme ne kadar etkilidir?
Arka plan: Güçlendirme öğrenme görevimde Sinir Ağı Q-değeri yaklaşımını kullanıyorum. Yaklaşım, bu soruda açıklananla tamamen aynıdır , ancak sorunun kendisi farklıdır. Bu yaklaşımda çıktıların sayısı, gerçekleştirebileceğimiz eylemlerin sayısıdır. Ve basit bir deyişle, algoritma aşağıdaki gibidir: A eylemini yapın, ödülü keşfedin, NN'den tüm olası eylemler için Q değerlerini tahmin etmesini isteyin, …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.