AlphaGo'nun makalesinde kullanıma sunma politikası nedir?


11

Kağıt burada .

Sunum politikası ... hızlı, aşamalı olarak hesaplanan, yerel desen tabanlı özelliklere dayanan doğrusal bir softmax politikasıdır ...

Sunum politikasının ne olduğunu ve bir hamle seçmenin politika ağıyla nasıl bir ilişkisi olduğunu anlamıyorum. Daha basit bir açıklama var mı?


Kağıt bir ödeme duvarının arkasında görünüyor ...
Vladislavs Dovgalecs

@xeon Buna yardım edemem. Makaleye tam erişimim var ancak buraya yükleyemiyorum (telif hakkı yasaları). Belki başka bir kopyası varsa google etrafında?
HelloWorld

Yanıtlar:


11

p(as)asp

Sunum politikasının (tavladan "sunumu" ödünç aldıklarına inanıyorum), lojistik regresyonda kullanılan sigmoid fonksiyonunun genelleştirilmesine atıfta bulundukları doğrusal bir softmax fonksiyonu olduğunu söylediklerinde. Bu işlev formu alır

eβiTxj=1keβjTx

xβiai

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.