Yapay zeka reinforcement-learning

Taban çizgisi neden bazı zamanlardaki tarafsızlığa koşulludur?

Robotikte, takviye öğrenme tekniği bir robotun kontrol modelini bulmak için kullanılır. Ne yazık ki, çoğu politika gradyan yöntemi istatistiksel olarak önyargılıdır ve bu da robotu güvenli olmayan bir duruma getirebilir, bkz. Sayfa 2, Jan Peters ve Stefan Schaal: Motor becerilerin politika gradyanlarıyla takviye öğrenimi, 2008 Motor ilkel öğrenme ile sorunun …

9 reinforcement-learning

Takviye öğreniminin satranç gibi oyunlara uygulanmasıyla ilgili birkaç şüphe

Satranç benzeri bir masa oyunu icat ettim. Otonom olarak oynayabilmek için bir motor yaptım. Motor temel olarak bir karar ağacıdır. Oluşturan: Her düğümde olası tüm yasal hareketleri bulan bir arama işlevi Tahta pozisyonuna sayısal bir değer atayan bir değerlendirme fonksiyonu (olumlu, ilk oyuncuların üstünlüğü elde ettiği anlamına gelir, negatif, ikinci …

9 reinforcement-learning game-ai game-theory combinatorial-games negamax

«reinforcement-learning» etiketlenmiş sorular