İnsan veritabanı olmadan AlphaGo (ve takviye-öğrenme kullanan diğer oyun programları)


13

Konunun uzmanı değilim ve sorum muhtemelen çok naif. AlphaGo programında kullanılan takviye öğrenmenin güçlerini ve sınırlarını anlamak için bir denemeden kaynaklanmaktadır.

AlphaGo programı, diğer şeylerin yanı sıra (ağaçların Monte-Carlo keşfi, vb.), İnsan tarafından oynanan büyük oyunlardan oluşan büyük bir veritabanından eğitilen ve daha sonra oyunun oyun sürümlerine izin verilerek güçlendirilen sinir ağları kullanılarak oluşturulmuştur. programa karşı birçok kez

Şimdi ne olacağını merak ediyorum, insan veritabanı olmadan böyle bir program oluşturmaya çalıştık, yani sadece kuralları keşfetmek ve ağaçları keşfetmek için bazı yöntemler bilmek ve sinir ağını iyileştirmek için kendine karşı oynamak için temel bir programla başlamak. Kendisine karşı birçok oyundan sonra, en iyi insan oyuncularla rekabet edebilecek veya yenebilecek bir programa varacak mıyız? Ve eğer öyleyse, bunun için kaç oyuna (büyüklük sırasına göre) ihtiyaç duyulur? Ya da tam tersine, böyle bir program çok daha zayıf bir oyuncuya yaklaşacak mı?

AlphaGo çok yeni olduğu için deneyin yapılmadığını düşünüyorum. Ancak cevap yine de bir uzman için açık olabilir. Aksi takdirde eğitimli bir tahmin beni ilgilendirir.

Aynı soruyu "daha basit" oyunlar için de sorabilirsiniz. AlphaGo için kabaca aynı takviye öğrenme tekniklerini kullanırsak, ancak insan veritabanı kullanmadan bir Satranç programı için kullanırsak, sonunda en iyi insanı yenebilecek bir program elde eder miyiz? Ve eğer öyleyse, ne kadar hızlı? Bu denendi mi? Ya da Satranç için değilse, Dama ya da daha basit oyunlara ne dersiniz?

Çok teşekkürler.

Yanıtlar:


10

Uzman değilim ama görünüşe göre AlphaGo Zero sorunuza cevap veriyor. https://deepmind.com/blog/alphago-zero-learning-scratch/

AlphaGo'nun önceki sürümleri başlangıçta Go'nun nasıl oynanacağını öğrenmek için binlerce insan amatör ve profesyonel oyun üzerinde eğitim aldı. AlphaGo Zero bu adımı atlar ve tamamen rastgele oyundan başlayarak sadece kendisine karşı oyun oynayarak oynamayı öğrenir. Bunu yaparak, insan oyun seviyesini hızla aştı ve AlphaGo'nun daha önce yayınlanan şampiyon yenilgi versiyonunu 100 oyunla 0'a yendi.


Bu daha yeni mi?
kosmos

1
Bu yayın 18 Ekim 2017'de yayınlandı.
ncasas

İnsanlara karşı sonuçları bilmek ilginç olurdu. Çünkü önceden eğitilmiş insan veri tabanının bir nedeni MCTS algoritmasını insan rakiplere karşı hassaslaştırmaktır . Orijinal AlphaGo, diğer ML'ye değil, insanlara karşı oynamak için optimize edildi. Bu nedenle, AlphaGo Zero'nun orijinal AlphaGo'dan kesinlikle "daha iyi" olup olmadığını veya sadece bir oyun teorisi anlamında hakim olup olmadığını söylemek daha zordur - örneğin AlphaGo Zero, AlphaGo'yu yener Lee Sedol, AlphaGo Zero'yu yener. . .
Neil Slater

4
Neil, Evet bu ilginç olurdu. Ama Alpha Go sıfıra karşı insan şansının bir yüzdesine bahse girmezdim.
Joël

1
Q

9

Aynı soru AlphaGo belgesinin yazarına da sorulmuştur ve cevabı, AlphaGo'nun sıfırdan öğrenmesi durumunda ne olacağını bilmememizdir (test etmediler).

Bununla birlikte, oyunun karmaşıklığı göz önüne alındığında, bir algoritmayı önceden bilgisi olmadan sıfırdan eğitmek zor bir iş olacaktır. Bu nedenle, başlangıçta böyle bir sistemi, insanlar tarafından edinilen bilgileri kullanarak bir Master seviyesine yükselterek başlatmak mantıklıdır.

Her ne kadar insan hareketleri ağaç düğümlerindeki (eyaletler) eylem seçimine ağırlık verse de, bu öncekinin bir bozulma faktörüne sahip olduğunu belirtmek gerekir. Bu, belirli bir duruma artan ziyaretlerin, algoritmayı keşfetmeye teşvik etmek için öncekinin gücünü azalttığı anlamına gelir.

AlphaGo'nun şu anki Ustalık seviyesinin, bir insanın oyun tarzına ne kadar yakın veya uzak olduğu bilinmemektedir (turnuvada, bir insanın neredeyse sıfır performans olasılığı olduğu bir hareket yaptı! - Ama aynı zamanda gerçekten de kötü hareketler yaptı) . Muhtemelen, tüm bu soruların karşılık gelen test algoritmalarını uygulayarak cevaplanması gerekmektedir.

DeepMind'in son makalesi sorunuzu cevaplarken cevabımı düzenlemem gerekiyor . AlphaGo'nun ilk sürümü ile önceki deneyimin tamamından ortaya çıkan birçok ilerleme vardı ve gerçekten okumaya değer.



8

AlphaGo'nun algoritmasını anladığım kadarıyla, en iyi eylemleri seçmek için Monte-Carlo ağaç aramasını kullanarak basit bir takviye öğrenme (RL) çerçevesine dayanıyor. Üstelik, RL algoritmasının kapsadığı durumlar ve eylemler sadece oyunun tüm olası konfigürasyonu değildir (Go'nun büyük bir karmaşıklığı vardır), ancak bir politika ağına ve gerçek oyunlardan öğrenilen ve daha sonra bir değer ağına dayanır. Oyun oynayarak geliştirildi AlphaGo vs AlphaGo.

O zaman gerçek oyunlardan alınan eğitimin zaman kazanmak için sadece bir kısayol mu yoksa bu tür bir verimliliği elde etmek için gerekli bir seçenek olup olmadığını merak edebiliriz. Sanırım kimse cevabı gerçekten bilmiyor, ama bazı varsayımlar ifade edebiliriz. Birincisi, insanın iyi hamleleri teşvik etme yeteneği, basit bir sinir ağından çok daha karmaşık zekâdan kaynaklanmaktadır. Masa oyunları için hafıza, deneyim, mantık ve duygular arasında bir karışımdır. Bu yönde, AlphaGo algoritmasının, Go oyununun (neredeyse imkansız olan) tüm yapılandırmasının büyük bir yüzdesini açıkça keşfetmeden böyle bir model oluşturabileceğinden emin değilim. Mevcut araştırmalar, ilişkisel RL veya endüktif mantık öğrenme gibi böyle bir oyunun daha karmaşık temsilini oluşturmaya odaklanmaktadır. Sonra daha basit oyunlar için (satranç için geçerli olabilir, ancak emin değilim),

Yine de sadece bir görüş. Ancak, sorunuza cevap vermenin anahtarının günümüzde bilgi açısından hala oldukça basit olan RL yaklaşımında yattığından eminim. Bu oyunlarla başa çıkmamızı sağlayan şeyi gerçekten belirleyemiyoruz ve henüz insanı yenmek için bulduğumuz en iyi yol kabaca ondan öğrenmek ve öğrenilen modeli muazzam hesaplamalar ile geliştirmek.


1

İnsan veritabanı olmadan rekabetçi kendi kendine oynamak, karmaşık, kısmen gözlenen ortamlar için bile mümkündür. OpenAI bu yöne odaklanıyor. Bu makaleye göre :

Kendi kendine oynama, bir yapay zekanın gelişmesi için ortamın her zaman doğru zorluk olmasını sağlar.

Kendi kendine oynamanın başarısı için önemli bir neden.

OpenAI, Dota 2 1v1 için 11 Ağustos 2017'de standart insan kuralları Dendi 2-0'u standart turnuva kurallarına göre yendi .

Bot, oyunu kendi kendine oynayarak sıfırdan öğrendi ve taklit öğrenme veya ağaç araması kullanmıyor. Bu, gerçek insanları içeren karışık, karmaşık durumlarda iyi tanımlanmış hedeflere ulaşan AI sistemleri oluşturmaya yönelik bir adımdır.

Sadece oyunlar değil, bu yön de robotik görevler için umut vericidir.

Kendi kendine oynamanın, simüle edilmiş yapay zekaların, açıkça bu becerileri göz önünde bulundurarak bir ortam tasarlamadan, mücadele, ördek yavrusu, taklit etme, tekmeleme, yakalama ve dalış gibi fiziksel becerileri keşfetmesine izin verdiğini tespit ettik.

Bir sonraki adımda, sadece kendi kendine oynamayı sınırlamakla kalmayıp işbirliği yapmayı, rekabet etmeyi ve iletişim kurmayı öğrenme yöntemini genişletiyorlar .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.