Arka arkaya beş / gomoku oynayabilen bir yapay zeka yaratmak istiyorum. Başlıkta bahsettiğim gibi, bunun için pekiştirici öğrenmeyi kullanmak istiyorum.
Kullandığım ilke gradyan başlangıç ile, yani takviye yöntemi. Değer ve politika işlevi yaklaşımı için bir sinir ağı kullanıyorum . Evrişimli ve tamamen bağlı katmanlara sahiptir. Çıktı hariç tüm katmanlar paylaşılır. Politikanın çıktı katmanı (kartın boyutu) çıktı birimine ve bunlarda softmax değerine sahiptir . Yani stokastik. Ancak, ağ geçersiz bir hamle için çok yüksek bir olasılık üretirse ne olur? Geçersiz hareket, aracının içinde bir "X" veya "O" bulunan bir kareyi kontrol etmek istediği zamandır. Bence bu oyun durumunda sıkışabilir.
Bu sorun için herhangi bir çözüm önerebilir misiniz?
Tahminim aktör-eleştirmen yöntemini kullanmak. Geçersiz bir hamle için olumsuz bir ödül vermeli ve dönüşü rakibe geçmeliyiz.