4
Takviye öğreniminde geçersiz hareketler nasıl ele alınır?
Arka arkaya beş / gomoku oynayabilen bir yapay zeka yaratmak istiyorum. Başlıkta bahsettiğim gibi, bunun için pekiştirici öğrenmeyi kullanmak istiyorum. Kullandığım ilke gradyan başlangıç ile, yani takviye yöntemi. Değer ve politika işlevi yaklaşımı için bir sinir ağı kullanıyorum . Evrişimli ve tamamen bağlı katmanlara sahiptir. Çıktı hariç tüm katmanlar paylaşılır. …