Bir satranç motorunun sinir ağı veya açık kod olarak somutlaştırıldığı değerlendirme fonksiyonu her zaman herhangi bir tahta pozisyonuna bir değer atayabilir. Bir tahta pozisyonu verirseniz, bir oyunda asla gerçekleşmeyecek saçma olanlar bile, bir oyuncuya veya diğerine ne kadar elverişli olduğunu gösteren bir sayı verebilir. Satrançtaki tahta pozisyonlarının sayısı yönetilemeyecek kadar devasa olduğu için, eğitim sadece oyun ağacının sonsuz bir örneğinde yapılabilir. Motor, tahta pozisyonlarının önceden hesaplanmış değerlerini hatırlamakla kalmaz, aynı zamanda parçaların düzenine göre hesaplamalar yapar. Nöral-net olmayan bir örnek için, bir satranç motorunun değerlendirmesinin bir parçası, her bir parçanın değerini yanına toplamak ve rakibin taşlarının toplam değerini çıkarmak olabilir. Sonra,
Motor eğitim alınmadığında, değerlendirme fonksiyonunun parametreleri (genellikle) rastgele değerlerle başladığı için bir konuma atanan değerler de rastgele olabilir. Bir antrenman aşamasının amacı, motorun parametrelerini, oyuncu için muhtemel kazanma durumları olan tahta pozisyonlarına yüksek puanlar atayacak şekilde ayarlamaktır.
Gönderen AlphaZero kağıt (sayfa 3):
AlphaZero'daki derin sinir ağının parametreleri, rastgele başlatılan parametrelerden başlayarak, kendi kendine oyun güçlendirme öğrenimi ile eğitilir. Oyunlar MCTS tarafından her iki oyuncu için hamleler seçilerek oynanır. Oyun sonunda, terminal pozisyonu oyunun sonucunu hesaplamak için oyunun kurallarına göre puanlanır: −1 kayıp için, 0 beraberlik için ve galibiyet için +1. Sinir ağı parametreleri, tahmin edilen sonuç ile oyun sonucu arasındaki hatayı en aza indirecek ve politika vektörünün arama olasılıklarıyla benzerliğini en üst düzeye çıkaracak şekilde güncellenir.
[matematik sembolleri alıntıdan kaldırıldı]
Özetle, eğitim sırasında AlphaZero kendine karşı bir oyun oynadı. Oyun bittiğinde, oyunun sonucu ve oyunun nasıl ilerleyeceği konusundaki tahminlerinin doğruluğu, sinir ağını bir sonraki oyun sırasında daha doğru olacak şekilde ayarlamak için kullanıldı. AlphaZero, gördüğü her pozisyonun kaydını tutmuyor, ancak gelecekte gördüğü herhangi bir tahtayı daha doğru bir şekilde değerlendirebilmesi için kendini ayarlıyor.