1
Her işlem için bir çıktı birimi olduğunda Sinir Ağları ile Q-öğrenme ne kadar etkilidir?
Arka plan: Güçlendirme öğrenme görevimde Sinir Ağı Q-değeri yaklaşımını kullanıyorum. Yaklaşım, bu soruda açıklananla tamamen aynıdır , ancak sorunun kendisi farklıdır. Bu yaklaşımda çıktıların sayısı, gerçekleştirebileceğimiz eylemlerin sayısıdır. Ve basit bir deyişle, algoritma aşağıdaki gibidir: A eylemini yapın, ödülü keşfedin, NN'den tüm olası eylemler için Q değerlerini tahmin etmesini isteyin, …