«reinforcement-learning» etiketlenmiş sorular

Dışarıdan olumlu pekiştirme veya olumsuz geribildirim sinyali veya her ikisi tarafından kontrol edilen öğrenmeyle ilgili sorular için, şimdiye kadar öğrenilenlerin öğrenilmesi ve kullanılması aynı anda gerçekleşir.

2
Taban çizgisi neden bazı zamanlardaki tarafsızlığa koşulludur?
Robotikte, takviye öğrenme tekniği bir robotun kontrol modelini bulmak için kullanılır. Ne yazık ki, çoğu politika gradyan yöntemi istatistiksel olarak önyargılıdır ve bu da robotu güvenli olmayan bir duruma getirebilir, bkz. Sayfa 2, Jan Peters ve Stefan Schaal: Motor becerilerin politika gradyanlarıyla takviye öğrenimi, 2008 Motor ilkel öğrenme ile sorunun …

1
Takviye öğreniminin satranç gibi oyunlara uygulanmasıyla ilgili birkaç şüphe
Satranç benzeri bir masa oyunu icat ettim. Otonom olarak oynayabilmek için bir motor yaptım. Motor temel olarak bir karar ağacıdır. Oluşturan: Her düğümde olası tüm yasal hareketleri bulan bir arama işlevi Tahta pozisyonuna sayısal bir değer atayan bir değerlendirme fonksiyonu (olumlu, ilk oyuncuların üstünlüğü elde ettiği anlamına gelir, negatif, ikinci …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.