AlphaZero belgesindeki Dirichlet gürültüsünün amacı


10

DeepMind'in AlphaGo Zero ve AlphaZero makalelerinde, Monte Carlo Ağacı Arama'daki kök düğümden (tahta durumu) önceki eylem olasılıklarına Dirichlet gürültüsü eklemeyi açıklarlar :

Kök düğümündeki önceki olasılıklara Dirichlet gürültüsü eklenerek ek keşifler elde edilir s0, özellikle , burada ve ; bu gürültü tüm hareketlerin denenmesini sağlar, ancak arama yine de kötü hareketleri geçersiz kılabilir.P(s,bir)=(1-ε)pbir+εηbirη~dir(0.03)ε=0.25

(AlphaGo Zero)

Ve:

Dirichlet noise kök düğümdeki önceki olasılıklara eklendi; bu, tipik bir konumdaki yaklaşık yasal işlem sayısına, değerine ters orantılı olarak ölçeklendirildiSatranç, shogi ve Go için sırasıyla .dir(α)α={0.3,0.15,0.03}

(AlphaZero)

Anlamadığım iki şey:

  1. P(s, a)Bir olup boyutlu vektör. Mi ile Dirichlet dağıtımı için kestirme değeri ile parametreleri, her bir ?ndir(α)nα

  2. Dirichlet'e sadece multinom dağılımından önce eşlenik olarak rastladım. Neden burada seçildi?

Bağlam P(s, a)için, belirli bir durum / eylem için PUCT (polinom üst güven ağacı, üst güven sınırlarında bir değişken) hesaplamasının sadece bir bileşenidir. MCTS sırasında kardeşleri arasında verilen eylemin kaç kez seçildiğine dair sabit ve metrik olarak ölçeklendirilir ve tahmini işlem değerine eklenir Q(s, a):

  • PUCT(s, a) = Q(s, a) + U(s, a).
  • U(s,bir)=cpuctP(s,bir)ΣbN-(s,b)1+N-(s,bir) .

2
Tamam, Dir (a) gerçekten Dir (a, a, ...) anlamına gelir. <1 için bu, R ^ n'nin standart temel vektörlerinin yakınında yoğunlaşacaktır (daha küçük, daha sıkı). Böylece Dirichlet (a) (1) parametrelerin toplamını sabit tutmaya yardımcı olur, (2) temel vektörlerin yakınında konsantre olur ve (3) hiçbirini tercih etmez.
keşiş

Yanıtlar:


6

Soru 1 açıktır, burada verilen değerin tekrarlarının bir vektörüdür. (Max S. tarafından yanıtlandığı gibi)α

Soru 2 daha ilginç: Dirichlet dağılımı bu bağlamla ilgili aşağıdaki yoruma sahiptir: , sonuç olasılıkları ile bazı (bilinmeyen) kategorik dağılımdan çizilen sonuç sayılarının gözlemlenen vektörü olduğunda , olasılığıdır gerçek temel Eğer gözlenen belirli dağıtım sayımları olarak. (Bu temel olarak ikili dağılımın tanımıdır.)απDbenr(α)(π)Cbirt(π)α

Şimdi P(s,a)iyi bir oyuncu oynayacağını olasılığını tahmin ayılında s, o AlphaZero öğrenmek istiyor onun kategorik dağılım, parametreleri olduğunu. YaniDbenr(α) için makul tahminler pben=P(s,a) iyi bir oyuncu hamle oynadığımızı gözlemleseydik α-zamanlar. Ama eğer bazılarıαben=0, sonra hepsi π~Dbenr(α) Sahip olmak πben=0, araştırmayı engelliyor. Gürültüyü ekleyerek her hareketin az sayıda oynandığını gözlemlediklerini varsayarlarα (burada 0.3, 0.15, 0.03 seçilmiştir).

Sabitleri nasıl elde ettiklerine gelince, tahminimce her oyunda ~ 10 rastgele oyun gözlemlediklerini varsayıyorlar: Dbenr(0.3)her hamlenin 0.3 kez oynandığını gördüğünüzü varsayarız. Allis'e göre ~ 35 hamle olduğu göz önüne alındığında , yazarlar her düğümde ~ 10 rastgele hamle gördüğünüzü varsayarlar. Go'da, ortalama olarak ~ 270 yasal hamle varsayarsak (361 tahta pozisyonunun 3/4'ü), ~ 8 rastgele hamle gözlemlemeye eşdeğer görürüz. (Shogi için veri yok.)


3

1 numaralı soru için cevap evettir, αbir vektördür, ancak bu durumda tüm değerler aynıdır. Vikipedi'ye göre buna simetrik Dirichlet dağılımı denir ve "bir bileşeni diğerine tercih eden ön bilgi bulunmadığında" kullanılır. Bu durumda bu, belirli bir bileşene daha fazla gürültü eklemek istemediğiniz anlamına gelir.

Soru 2 için, bir Dirichlet dağılımından alınan numuneler, elemanların 1'e toplayacağı özelliğe sahiptir. Bunu, gürültü ekledikten sonra ve elemanların hala 1'e ulaşmasını sağlamak için kullandıklarını varsayıyorum.


Teşekkürler. Birine toplamanın yanı sıra (bazı rasgele dağılımları ölçekleyerek de yapabiliriz), standart temel vektörleri tercih eder. Yararlı görünüyor.
keşiş
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.