Konunun uzmanı değilim ve sorum muhtemelen çok naif. AlphaGo programında kullanılan takviye öğrenmenin güçlerini ve sınırlarını anlamak için bir denemeden kaynaklanmaktadır.
AlphaGo programı, diğer şeylerin yanı sıra (ağaçların Monte-Carlo keşfi, vb.), İnsan tarafından oynanan büyük oyunlardan oluşan büyük bir veritabanından eğitilen ve daha sonra oyunun oyun sürümlerine izin verilerek güçlendirilen sinir ağları kullanılarak oluşturulmuştur. programa karşı birçok kez
Şimdi ne olacağını merak ediyorum, insan veritabanı olmadan böyle bir program oluşturmaya çalıştık, yani sadece kuralları keşfetmek ve ağaçları keşfetmek için bazı yöntemler bilmek ve sinir ağını iyileştirmek için kendine karşı oynamak için temel bir programla başlamak. Kendisine karşı birçok oyundan sonra, en iyi insan oyuncularla rekabet edebilecek veya yenebilecek bir programa varacak mıyız? Ve eğer öyleyse, bunun için kaç oyuna (büyüklük sırasına göre) ihtiyaç duyulur? Ya da tam tersine, böyle bir program çok daha zayıf bir oyuncuya yaklaşacak mı?
AlphaGo çok yeni olduğu için deneyin yapılmadığını düşünüyorum. Ancak cevap yine de bir uzman için açık olabilir. Aksi takdirde eğitimli bir tahmin beni ilgilendirir.
Aynı soruyu "daha basit" oyunlar için de sorabilirsiniz. AlphaGo için kabaca aynı takviye öğrenme tekniklerini kullanırsak, ancak insan veritabanı kullanmadan bir Satranç programı için kullanırsak, sonunda en iyi insanı yenebilecek bir program elde eder miyiz? Ve eğer öyleyse, ne kadar hızlı? Bu denendi mi? Ya da Satranç için değilse, Dama ya da daha basit oyunlara ne dersiniz?
Çok teşekkürler.