1
DQN neden iki farklı ağ gerektirir?
Ben geçiyordu bu DQN uygulanması ve ben on line 124 ve 125 iki farklı Q ağları başlatıldı görüyoruz. Anladığım kadarıyla, bir ağın uygun eylemi ve ikinci ağın Bellman hatasını bulmak için hedef Q değerlerini tahmin ettiğini düşünüyorum. Neden sadece Q değerini tahmin eden ve bunu her iki durumda da kullanan …