AlphaGo Sıfır gelen makale Nature "İnsan Bilgisinin olmadan git Game of Mastering", iddialar önceki sürümünden dört büyük farklar:
- Yalnızca kendi kendine öğrenme (insan oyunlarında eğitilmemiş)
- Sadece tahta ve taşları giriş olarak kullanmak (elle yazılmış özellik yok).
- Politikalar ve değerler için tek bir sinir ağı kullanma
- İyi hamleleri nerede arayacağınızı yönlendirmek için bu birleşik politika / değer ağını kullanan yeni bir ağaç arama algoritması.
Takviye öğreniminde (1) ve (2) noktaları yeni değildir, ancak sorunuzun yorumlarında belirtildiği gibi önceki AlphaGo yazılımını geliştirin . Bu sadece rastgele başlatılan ağırlıklardan başlayarak saf Takviye Öğrenimi kullandıkları anlamına geliyor. Bu, daha iyi ve daha hızlı öğrenme algoritmalarıyla etkinleştirilir.
Buradaki iddiaları, "Birincil katkımız, insanüstü performansın insan alan bilgisi olmadan elde edilebildiğini göstermektir." (s.22).
(3) ve (4) noktaları algoritmalarının önceki yaklaşımlarından daha basit ve daha genel olması bakımından yenidir. Ayrıca bunun Guo ve ark.
Politika / değer ağını (3) birleştirmek, ağı daha hızlı eğitmek için iyi hareketler ve eş zamanlı olarak arama ağacını kullanarak arama yapmak için Monte-Carlo ağaç aramasının daha verimli bir varyantını uygulamalarını sağlar (4). Bu çok güçlü.
Dahası, yeni hareketler için aramayı optimize etmek amacıyla veri yapılarını yığınlama ve yeniden kullanma gibi bir dizi ilginç uygulama ayrıntılarını açıklarlar.
Sonuç, yazılımlarının önceki sürümleri için 176 GPU yerine 4 TPU ve 48 TPU üzerinde çalışan daha az bilgi işlem gücüne ihtiyaç duymasıdır.
Bu kesinlikle Go yazılımı bağlamında "yeni" yapar. I (3) ve (4) aynı zamanda daha geniş bir bağlamda "yeni" ve diğer takviye öğrenme gibi alanlarda uygulanabilir olacağına inanıyoruz örneğin robot.