Çok yakın bir zamanda, Alphabet'in DeepMind araştırma ekibinin makine öğrenme motorunu hem Shogi hem de satranç oynamak için genişlettiğini duydukları ortaya çıktı. Görünüşe göre, sadece birkaç saat süren öğrenmenin ardından, yalnızca oyunun kurallarına göre kendi kendine oynayarak, satrançtaki performansı zaten en son çıkan motorların performansını aştı.. Şahsen henüz tam olarak nasıl bir ayar yapıldığını tam olarak bilmiyorum, hangi koşulda olduğu gibi, Stockish'in hangi şartlarda yapıldığı, çünkü hesaplama sürelerinin sınırlı olması durumunda motorlar çok düşük performansta çalışabiliyor. Her halükarda, bu çok etkileyici bir başarıdır, çünkü bir kişinin ayarlayabileceği ortaya çıksa bile Sezgisel değerlendirme işlevlerine dayalı standart satranç motoru.
Şimdi bu haberin ışığında, birisinin bir makinenin öğrendiği satranç motorunun çalışmalarındaki ana farkları, hepimizin kullanmaya alıştığı standart motorlara kıyasla daha fazla detaylandırması mükemmel olurdu. Daha somut:
- AlphaZero'nun makine öğrenme yöntemleri ile eğitilmiş, kullandığı değerlendirme işlevi sonuçta bir başka sezgisel değerlendirme işlevi değil mi? Eğer evet ise, iki motorun değerlendirme işlevleri arasındaki temel farkın, Stockish'in insanlar tarafından elle ayarlanmış optimize edilmiş bir değerlendirme fonksiyonuna sahip olduğunu söylemek doğru olur mu, bunun için optimize etmek için fonksiyon tanımının sabit olduğu anlamına gelir. AlphaZero, hedef değerlendirme fonksiyonu ek bir eğitim ile (örneğin kendi kendine oynama yoluyla) sürekli olarak yeniden tanımlanıyor mu? İkincisini bir yaklaşımdan çok daha dinamik hale getirmek.
Nihayetinde, belirsiz bir şekilde konuşursak, Stockish gibi bir motor, değerlendirme işlevini olası hareketler ağacına uygulayarak hangi dalların tutulacağına ve hangilerinin düşeceğine karar vererek daha sonra daha derin bir betondan geçirilir.Her bir dalın analizi, tekrar değerlendirme fonksiyonu aracılığıyla hangi dalın en yüksek değeri verdiğini ve bunun esas değişkenlik haline geldiğini (elbette bu büyük ağacın verimli bir şekilde budamak için bu işlemin etrafında pek çok gelişmiş teknik vardır) olduğunu ortaya koymaktadır. Yani, her pozisyon için, bu son derece somut rutinin bir karar vermesi için Stockish için tekrarlanması gerekiyor. Bunun aksine, AlphaZero'nun çok farklı bir şey yaptığını, yani belirli bir konumda olası hareketler ağacının somut bir analizine dayanmadığını, bunun yerine değerlendirme işlevinin esasen o konuma bir değer atamadığını düşünmekteyim (sezgisel olarak koymamaya benzer) Şu anki pozisyonu, hiç bir zaman beton yapmak zorunda kalmadan, eğitim aldığı tüm diğer pozisyonlara benzer şekilde)Stockish, hatta bir insan oyuncunun yaptığı gibi bir analiz. Bu, AlphaZero'nun veya benzer şekilde eğitilmiş makine öğrenim motorlarının çalışmalarının sağlam bir resmi mi?
Satranç pozisyonlarının boşluğunun, içindeki tüm pozisyonları örneklemeye yönelik herhangi bir girişimin prensipte bile tamamen boşuna (EXPTIME karmaşıklığı) olacağını, kendi kendine oyun yoluyla hiçbir eğitimin yetmeyeceğini gösterecek kadar büyük olacağını biliyoruz. tüm pozisyonları araştırdı, o zaman potansiyelin kendi kendine oynama yoluyla uzayın pozisyonlarının küçük bir kısmını keşfetmesine rağmen sonuç ne kadar iyi olabilir? Buradaki oyunda kilit fikir nedir?
Tahminime göre, AlphaZero herhangi bir pozisyonu karşılaştırmak için çok uygun bir yola sahip, yeni olsa bile, eğitim setinde daha önce ziyaret edilen birine yeni olsa da, karşılaştırma ne kadar yakınsa, değerlendirme o karşılaştırmadan ne kadar geçerli olabilir. Örneğin, 5. oyundaki Bg5 hamlesini oynadığında, antrenmanı sırasında benzer bir yapı araştırması gerekirdi, yani bu pozisyonun esasen antrenmanında çalışılan (muhtemelen tamamen) farklı olana eşdeğer olduğunu kabul edebilmelidir. Makine öğrenmesiyle yüz tanımanın nasıl sağlandığına benzetme ve bunun sonucunda Bg5'in diğer benzer pozisyonlarda olduğu gibi en iyi hareket olması gerektiği sonucuna varmıştır. Bu kesinlikle doğru bir tahmin mi? Bu karşılaştırmanın nasıl yapıldığını bilmiyorum Tamamen eğitilmiş tüm pozisyonları saklamak ve her seferinde bunların içinden ayrıştırmak mümkün değildir.
Bu, yalnızca AlphaZero'nun çalışmalarına ve bir pozisyon verilen bir karara nasıl geldiğine dair içgörü kazanma çabasıdır.