“Monte-Carlo arama” nasıl çalışır?


16

Alpha Go ile ilgili bir Reddit yazısında bu konsepti duymuştum. Makaleyi ve makaleyi gözden geçirmeye çalıştım, ancak algoritmayı gerçekten anlayamadım.

Peki, birisi Monte-Carlo arama algoritmasının nasıl çalıştığına ve oyun oynayan AI botlarının yapımında nasıl kullanıldığına dair kolay anlaşılır bir açıklama verebilir mi?


MCTS algoritmasının güzel bir açıklaması şu adreste bulunabilir: https://towardsdatascience.com/monte-carlo-tree-search-in-reinforcement-learning-b97d3e743d0f .
nbro

Yanıtlar:


13

Monte Carlo yöntemi , çok sayıda rastgele değer veya simülasyon oluşturduğunuz ve araçlar ve varyanslar gibi genel kalıplara dayanan bir tür sonuç çıkardığınız bir yaklaşımdır.

Örnek olarak, hava durumu tahminleri için kullanabilirsiniz . Uzun vadeli hava durumunu tahmin etmek oldukça zordur, çünkü küçük değişikliklerin çok farklı sonuçlara yol açabileceği kaotik bir sistemdir. Monte Carlo yöntemlerini kullanarak, her biri biraz farklı atmosferik değişikliklere sahip çok sayıda simülasyon çalıştırabilirsiniz. Sonra sonuçları analiz edebilir ve örneğin kaç gün yağmurla sonuçlandığına bağlı olarak belirli bir günde yağmur olasılığını hesaplayabilirsiniz.

Monte Carlo'nun Alpha Go'da kullanımına gelince, Monte Carlo Ağacı Araması deniyor gibi görünüyorlar . Bu yaklaşımda, olası hamlelerin bir ağacını yapar, geleceğe birkaç dönüş yapar ve en iyi diziyi bulmaya çalışırsınız. Ancak, oyundaki olası hamle sayısı çok büyük olduğundan, çok ileriye doğru keşfedemezsiniz. Bu, şimdi iyi görünen bazı hareketlerin daha sonra kötü olabileceği anlamına gelir.

Monte Carlo Ağacı Arama'da umut verici bir hamle dizisi seçiyorsunuz ve oyunun bu noktadan nasıl ilerleyebileceğine dair bir veya daha fazla simülasyon çalıştırıyorsunuz. Ardından, belirli hareket dizisinin gerçekten ne kadar iyi olduğu hakkında daha iyi bir fikir edinmek için bu simülasyonun sonuçlarını kullanabilirsiniz ve ağacı buna göre güncellersiniz. İyi bir hareket bulana kadar gerektiği kadar tekrarlayın.

Daha fazla bilgi edinmek veya bazı çizimlere bakmak için, konuyla ilgili ilginç bir makale buldum: C. Browne ve ark., Monte Carlo Ağacı Arama Yöntemleri Araştırması ( açık havuz / kalıcı bağlantı (ödeme duvarı) )


Yani temelde, monte carlo'nun alfada yaptığı şey, farklı hareket kombinasyonlarını göz önüne alarak, başka bir yol yerine, uzun vadeli stratejiler yaratmaktır (bir strateji seçin ve sonra bunu elde etmek için hareketler)?
Diego Antonio Rosario Palomino

Araştırılacak mevcut hamlelerin seçimine entegre edilen stokastik unsur olan Monte Carlo yaklaşımının kilit unsurundan bahsedilmiyor. Ayrıca, daha yalın işlemeye ulaşmak için kesinlik ödün vermedi. Bunlar en önemli iki yönüdür ve cevapta yoktur. Bunun yerine, Monte Carlo yakınsamasının karakteristiği olan sahte rastgele faktörlerden (daha az kapsamlı bir arama) daha az sayıda simülasyon olduğunda, "çok sayıda rastgele değer veya simülasyon" dan bahsedildi.
FauChristian
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.