AlphaZero belgesindeki Dirichlet gürültüsünün amacı

10

DeepMind'in AlphaGo Zero ve AlphaZero makalelerinde, Monte Carlo Ağacı Arama'daki kök düğümden (tahta durumu) önceki eylem olasılıklarına Dirichlet gürültüsü eklemeyi açıklarlar :

Kök düğümündeki önceki olasılıklara Dirichlet gürültüsü eklenerek ek keşifler elde edilir $s_0$ , özellikle , burada ve ; bu gürültü tüm hareketlerin denenmesini sağlar, ancak arama yine de kötü hareketleri geçersiz kılabilir. $P(s, a) = (1−\varepsilon)p_a+ \varepsilon \eta_a$ $\eta \sim \text{Dir}(0.03)$ $\varepsilon = 0.25$

(AlphaGo Zero)

Ve:

Dirichlet noise kök düğümdeki önceki olasılıklara eklendi; bu, tipik bir konumdaki yaklaşık yasal işlem sayısına, değerine ters orantılı olarak ölçeklendirildiSatranç, shogi ve Go için sırasıyla . $\text{Dir}(\alpha)$ $\alpha = \{0.3, \; 0.15, \; 0.03\}$

(AlphaZero)

Anlamadığım iki şey:

P(s, a)Bir olup boyutlu vektör. Mi ile Dirichlet dağıtımı için kestirme değeri ile parametreleri, her bir ? $n$ $\text{Dir}(\alpha)$ $n$ $\alpha$
Dirichlet'e sadece multinom dağılımından önce eşlenik olarak rastladım. Neden burada seçildi?

Bağlam P(s, a)için, belirli bir durum / eylem için PUCT (polinom üst güven ağacı, üst güven sınırlarında bir değişken) hesaplamasının sadece bir bileşenidir. MCTS sırasında kardeşleri arasında verilen eylemin kaç kez seçildiğine dair sabit ve metrik olarak ölçeklendirilir ve tahmini işlem değerine eklenir Q(s, a):

PUCT(s, a) = Q(s, a) + U(s, a).
$U(s,a) = c_{\text{puct}} P(s,a) \frac{\sqrt{\sum_b N(s,b)}}{1 + N(s,a)}$ .

machine-learning neural-networks dirichlet-distribution

— keşiş
kaynak

2

Tamam, Dir (a) gerçekten Dir (a, a, ...) anlamına gelir. <1 için bu, R ^ n'nin standart temel vektörlerinin yakınında yoğunlaşacaktır (daha küçük, daha sıkı). Böylece Dirichlet (a) (1) parametrelerin toplamını sabit tutmaya yardımcı olur, (2) temel vektörlerin yakınında konsantre olur ve (3) hiçbirini tercih etmez.

— keşiş

6

Soru 1 açıktır, burada verilen değerin tekrarlarının bir vektörüdür. (Max S. tarafından yanıtlandığı gibi) $\alpha$

Soru 2 daha ilginç: Dirichlet dağılımı bu bağlamla ilgili aşağıdaki yoruma sahiptir: , sonuç olasılıkları ile bazı (bilinmeyen) kategorik dağılımdan çizilen sonuç sayılarının gözlemlenen vektörü olduğunda , olasılığıdır gerçek temel Eğer gözlenen belirli dağıtım sayımları olarak. (Bu temel olarak ikili dağılımın tanımıdır.) $\alpha$ $\pi$ $Dir(\alpha)(\pi)$ $Cat(\pi)$ $\alpha$

Şimdi P(s,a)iyi bir oyuncu oynayacağını olasılığını tahmin ayılında s, o AlphaZero öğrenmek istiyor onun kategorik dağılım, parametreleri olduğunu. Yani $Dir(\alpha)$ için makul tahminler $pi=$ P(s,a) iyi bir oyuncu hamle oynadığımızı gözlemleseydik $\alpha$ -zamanlar. Ama eğer bazıları $\alpha_i=0$ , sonra hepsi $\pi\sim Dir(\alpha)$ Sahip olmak $\pi_i=0$ , araştırmayı engelliyor. Gürültüyü ekleyerek her hareketin az sayıda oynandığını gözlemlediklerini varsayarlar $\alpha$ (burada 0.3, 0.15, 0.03 seçilmiştir).

Sabitleri nasıl elde ettiklerine gelince, tahminimce her oyunda ~ 10 rastgele oyun gözlemlediklerini varsayıyorlar: $Dir(0.3)$ her hamlenin 0.3 kez oynandığını gördüğünüzü varsayarız. Allis'e göre ~ 35 hamle olduğu göz önüne alındığında , yazarlar her düğümde ~ 10 rastgele hamle gördüğünüzü varsayarlar. Go'da, ortalama olarak ~ 270 yasal hamle varsayarsak (361 tahta pozisyonunun 3/4'ü), ~ 8 rastgele hamle gözlemlemeye eşdeğer görürüz. (Shogi için veri yok.)

— Tomáš Gavenčiak
kaynak

3

1 numaralı soru için cevap evettir, $\alpha$ bir vektördür, ancak bu durumda tüm değerler aynıdır. Vikipedi'ye göre buna simetrik Dirichlet dağılımı denir ve "bir bileşeni diğerine tercih eden ön bilgi bulunmadığında" kullanılır. Bu durumda bu, belirli bir bileşene daha fazla gürültü eklemek istemediğiniz anlamına gelir.

Soru 2 için, bir Dirichlet dağılımından alınan numuneler, elemanların 1'e toplayacağı özelliğe sahiptir. Bunu, gürültü ekledikten sonra ve elemanların hala 1'e ulaşmasını sağlamak için kullandıklarını varsayıyorum.

— Max S.
kaynak

Teşekkürler. Birine toplamanın yanı sıra (bazı rasgele dağılımları ölçekleyerek de yapabiliriz), standart temel vektörleri tercih eder. Yararlı görünüyor.

— keşiş