DeepMind'in AlphaGo Zero ve AlphaZero makalelerinde, Monte Carlo Ağacı Arama'daki kök düğümden (tahta durumu) önceki eylem olasılıklarına Dirichlet gürültüsü eklemeyi açıklarlar :
Kök düğümündeki önceki olasılıklara Dirichlet gürültüsü eklenerek ek keşifler elde edilir , özellikle , burada ve ; bu gürültü tüm hareketlerin denenmesini sağlar, ancak arama yine de kötü hareketleri geçersiz kılabilir.
(AlphaGo Zero)
Ve:
Dirichlet noise kök düğümdeki önceki olasılıklara eklendi; bu, tipik bir konumdaki yaklaşık yasal işlem sayısına, değerine ters orantılı olarak ölçeklendirildiSatranç, shogi ve Go için sırasıyla .
(AlphaZero)
Anlamadığım iki şey:
P(s, a)
Bir olup boyutlu vektör. Mi ile Dirichlet dağıtımı için kestirme değeri ile parametreleri, her bir ?Dirichlet'e sadece multinom dağılımından önce eşlenik olarak rastladım. Neden burada seçildi?
Bağlam P(s, a)
için, belirli bir durum / eylem için PUCT (polinom üst güven ağacı, üst güven sınırlarında bir değişken) hesaplamasının sadece bir bileşenidir. MCTS sırasında kardeşleri arasında verilen eylemin kaç kez seçildiğine dair sabit ve metrik olarak ölçeklendirilir ve tahmini işlem değerine eklenir Q(s, a)
:
PUCT(s, a) = Q(s, a) + U(s, a)
.- .