AlphaGo Zero'daki “yeni takviye öğrenme algoritması” nedir?


10

Bazı nedenlerden ötürü, AlphaGo Zero, inanılmaz sonuçlarına rağmen orijinal AlphaGo kadar tanıtım yapmıyor. Sıfırdan başlayarak, zaten AlphaGo Master'ı dövdü ve diğer birçok kriteri geçti. Daha da inanılmaz, bunu 40 gün içinde yapıyor. Google bunu "tartışmasız dünyanın en iyi Go oyuncusu" olarak adlandırıyor .

DeepMind bunun "yeni bir takviye öğrenimi biçimi" olduğunu iddia ediyor - bu teknik gerçekten yeni mi? Ya da bu tekniğin kullanıldığı başka zamanlar oldu mu - eğer öyleyse, sonuçları ne oldu? Sanırım bahsettiğim gereksinimler 1) insan müdahalesi yok ve 2) tarihsel oyun yok, ama bunlar esnektir.

Bu benzer bir soru gibi görünüyor, ancak tüm cevaplar AlphaGo Zero'nun türünün ilk örneği olduğu varsayımından başlıyor gibi görünüyor.


Takviye öğrenimi yeni değildir. Google hangi tekniklerin ilk olduklarını iddia etti?
HelloWorld

Bağlantılı web sitesinde bir alıntı var ve makalede "AlphaGo Zero'daki sinir ağı, yeni bir takviye öğrenme algoritması ile kendi kendine oyun oyunlarından eğitilmiş" ifadesini kullanıyorlar.
Dubukay

1
Kendi kendine oynamak kesinlikle yeni bir şey değil. Google'dan önce vardı. Algoritmalarında onları "yeni" yapan detaylar var. Belki başka biri cevap verebilir.
HelloWorld

2
Anlıyorum- Sanırım yaklaşımlarını inanılmaz derecede iyi yapan şeyin ne olduğunu ve bunun diğer alanlarda görmeyi beklememiz gereken bir şey olup olmadığını anlamaya çalışıyorum. Yeni bir felsefe mi yoksa gerçekten iyi bir kod mu?
Dubukay

1
Makalenin bir kopyasını burada buldum: nature.com/articles/… (bunu paylaşan blogdan olan paylaşım erişim belirtecini içerir, bu yüzden kamuya açık yasal AFAICS'dir). Açıklamayı okuduktan sonra bile gerçek yeniliği bulmak zor - tüm bireysel fikirler önceden mevcut RL / oyun oynama teknikleri gibi görünüyor, sadece bunların spesifik bir kombinasyonu olabilir
Neil Slater

Yanıtlar:


6

AlphaGo Sıfır gelen makale Nature "İnsan Bilgisinin olmadan git Game of Mastering", iddialar önceki sürümünden dört büyük farklar:

  1. Yalnızca kendi kendine öğrenme (insan oyunlarında eğitilmemiş)
  2. Sadece tahta ve taşları giriş olarak kullanmak (elle yazılmış özellik yok).
  3. Politikalar ve değerler için tek bir sinir ağı kullanma
  4. İyi hamleleri nerede arayacağınızı yönlendirmek için bu birleşik politika / değer ağını kullanan yeni bir ağaç arama algoritması.

Takviye öğreniminde (1) ve (2) noktaları yeni değildir, ancak sorunuzun yorumlarında belirtildiği gibi önceki AlphaGo yazılımını geliştirin . Bu sadece rastgele başlatılan ağırlıklardan başlayarak saf Takviye Öğrenimi kullandıkları anlamına geliyor. Bu, daha iyi ve daha hızlı öğrenme algoritmalarıyla etkinleştirilir.

Buradaki iddiaları, "Birincil katkımız, insanüstü performansın insan alan bilgisi olmadan elde edilebildiğini göstermektir." (s.22).

(3) ve (4) noktaları algoritmalarının önceki yaklaşımlarından daha basit ve daha genel olması bakımından yenidir. Ayrıca bunun Guo ve ark.

Politika / değer ağını (3) birleştirmek, ağı daha hızlı eğitmek için iyi hareketler ve eş zamanlı olarak arama ağacını kullanarak arama yapmak için Monte-Carlo ağaç aramasının daha verimli bir varyantını uygulamalarını sağlar (4). Bu çok güçlü.

Dahası, yeni hareketler için aramayı optimize etmek amacıyla veri yapılarını yığınlama ve yeniden kullanma gibi bir dizi ilginç uygulama ayrıntılarını açıklarlar.

Sonuç, yazılımlarının önceki sürümleri için 176 GPU yerine 4 TPU ve 48 TPU üzerinde çalışan daha az bilgi işlem gücüne ihtiyaç duymasıdır.

Bu kesinlikle Go yazılımı bağlamında "yeni" yapar. I (3) ve (4) aynı zamanda daha geniş bir bağlamda "yeni" ve diğer takviye öğrenme gibi alanlarda uygulanabilir olacağına inanıyoruz örneğin robot.


Sanırım (4) David Silver'ın derslerinde - klasik oyunlar üzerine ders 10'da - mevcut birçok durumda MCTS zaten eğitilmiş ML tarafından yönlendiriliyor. AlphaGo Zero durumunda, bu durum ters çevrilir ve MCTS'nin sonucu, ML için öğrenme hedeflerini belirlemek için kullanılır. Ancak, bunun gerçekten "yeni" olup olmadığını merak etmemi sağlayan şey, derste anlatılanları yapma olasılığıdır. . .
Neil Slater
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.