Q-Learning'i aşağıda açıklandığı gibi uyguladım,
http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf
Yakl. S (S, A) Aşağıdaki gibi bir sinir ağı yapısı kullanıyorum,
- Aktivasyon sigmoid
- Girişler, giriş sayısı + Eylem nöronları için 1 (Tüm Girişler Ölçeklendirilmiş 0-1)
- Çıkışlar, tek çıkış. Q-Değer
- N M Gizli Katman sayısı.
- Keşif yöntemi rastgele 0 <rand () <propExplore
Aşağıdaki formülü kullanarak her bir öğrenme tekrarında,
Bir Q-Target değeri hesaplıyorum, sonra kullanarak bir hata hesaplıyorum,
error = QTarget - LastQValueReturnedFromNN
ve sinir ağından geri yayılır.
S1, Doğru yolda mıyım? Her eylem için bir çıkış nöronu ile bir NN uygulayan bazı makaleler gördüm.
Q2, Ödül işlevim -1 ile 1 arasında bir sayı döndürüyor. Etkinleştirme işlevi sigmoid olduğunda -1 ile 1 arasında bir sayı döndürmek uygun mu (0 1)
S3, Yeterli eğitim örnekleri verildiğinde bu yöntemi anladığımdan, en uygun politika avantajını bulmak karantinaya alınmalı mı? XOR için antrenman yaparken bazen 2k yinelemeden sonra öğrenir, bazen 40k 50k yinelemeden sonra bile öğrenmez.