OP'nin AlphaGo'yu alfa-beta ile karıştırdığını düşünüyorum. Alfa-beta'da, budama işlemine yardımcı olmak için politika ağını gerçekten kullanırsınız, ancak burada değil. Yine, algoritma Monte-Carlo ağaç aramasına (MCTS) dayandığı için budama yoktur.
Cevabımın çok uzun olduğunu düşünen herkes, iki ağın neden gereksiz olmadığını belirttiğim özet bölümüne geçebilir.
Aşağıdaki örnekte, fikirlerimin daha kolay anlaşılmasını sağlamak için bazı basitleştirmeler yapacağım.
Örnek:
İki yasal hareketin olduğu bir konum olduğunu hayal edin. İlk hamle, sizin için bir kayıptır, ancak ikinci hamle size bir kazanç avantajı sağlar
- İlk hamle: sizin için zorla kaybı
- İkinci hamle: sizin için zorla kazanmak
Değerlendirme ağı
Google'ın size sunduğu değerlendirme ağının mükemmel olduğunu varsayalım. Örneğimizdeki herhangi bir yaprak konumunu mükemmel şekilde değerlendirebilir. Örnek olarak değer ağımızı değiştirmeyeceğiz.
Örneğimizi basitleştirmek için, değer ağımızın verdiğini varsayalım:
- Sizin için bir kayıp olan herhangi bir yaprak pozisyonu için -1000
- Herhangi bir yaprak pozisyonu için +1000.
Politika ağı
Google’ın size iki politika ağı sağladığını varsayalım. Konumumuz için yaratılan olasılıklar:
- İlke 1: Taşıma 1 için 0.9 ve Taşıma 2 için 0.1
- İlke 2: Hareket 1 için 0,2 ve Hareket 2 için 0,8
İlk politika ağımızın, örneğimiz için yanlış önceden olasılık verdiğini unutmayın . Kaybeden bir hareket olan hamle 1 için 0,9 verir. Bu iyi, çünkü Google bile mükemmel bir politika ağı geliştiremedi.
İlk politika ağıyla oynamak
AlphaGo'nun Monte-Carlo ile bir simülasyon yaratması gerekiyor ve 1 veya 2 numaralı hamleyi seçmesi gerekiyor. Şimdi, AlphaGo düzgün dağılmış bir rasgele değişken çiziyor ve seçecek:
- Rastgele sayı <= 0,9 ise 1 taşıyın
- Rasgele sayı> 0.9 ise 2
Bu yüzden AlphaGo'nun kaybolan hareketi simüle etmek için seçmesi çok daha muhtemeldir (ilk simülasyonumuzda). İlk simülasyonumuzda, simülasyon için bir puan almak için değer ağını da kullanacağız. Gazetede, bu:
Bu değer -1000 olacaktır, çünkü bu simülasyon bir kayba yol açacaktır.
Şimdi, AlphaGo'nun ikinci simülasyonu oluşturması gerekiyor. Yine, ilk hamlenin seçilmesi çok daha muhtemeldir. Fakat nihayetinde ikinci hamle de seçim olacaktır:
- İkinci hamle için önceliğimiz, sıfır değil, 0.1'dir.
- AlphaGo, fazlaca araştırılmayan hareketleri denemek için teşvik edilir. Makalede, bu denklem ile yapılır:
N
Hareket için aranan hareketlerin sayısı olduğunu ve bunun payda olduğunu unutmayın. İlk hareketimiz aranma olasılığı ne kadar yüksek olursa, u
işlev o kadar küçüktür . Böylece, ikinci hamlememizi seçme olasılığı artar, çünkü AlphaGo aslında bu denklemden bir hamle alır:
Bu anahtar denklemdir. Lütfen dikkatlice bakın:
P
Önceki olasılık için bir terim vardır (politika ağı tarafından verilen)
Q
Değerlendirme puanları için bir terimi vardır (değer ağı tarafından verilen)
Şimdi, ikinci hamlemizin sonunda seçileceğini biliyoruz. Bu gerçekleştiğinde, değer ağı +1000 verir. Bu artacak Q
, ikinci hamleyi daha sonraki simülasyonlarda daha muhtemel olarak seçti.
Yeterli simülasyon verildiğinde, ikinci hareketin simülasyon için seçilme sayısı ilk hareketin seçilme sayısından fazla olmalıdır.
Son olarak, AlphaGo'nun yapmaya karar verdiği hareket şudur: (kağıttan alıntı):
Arama tamamlandığında, algoritma en çok ziyaret edilen hareketi kök konumundan seçer.
İkinci politika ağıyla oynamak
İkinci politika ağımız, hamle 2'yi seçmek için daha az yinelemeye ihtiyaç duyacaktır, çünkü politika ağı tarafından verilen öncelikli olasılık ilk önce doğrudur.
Uyarılar
Buradaki her şey Bayesian
analize çok benzer . Öncelikli bir olasılıkla (politika ağı tarafından verilen) başlıyoruz, sonra olasılık bozulmasını (değer ağı tarafından verilen) taşımak için veri üretiyoruz.
Özetler
- Politika ağı, Monte-Carlo araştırmasının ne yapması gerektiğini yönlendirmek için önceki olasılıkları oluşturmak için kullanılır.
- Değer ağı, politika ağını doğrulamak için veri üretmek için kullanılır. Politika ağı kötüyse, AlphaGo'nun bir araya gelmesi için daha fazla hesaplama kaynağına ihtiyacı var (eğer varsa).
- Bayes analizi gibi düşünebilirsiniz.