Tekrarlayan Takviye Öğrenme Nedir?

20

Geçenlerde "Tekrarlayan Takviye Öğrenme" kelimesiyle karşılaştım. "Tekrarlayan Sinir Ağı" nın ne olduğunu ve "Takviye Öğrenme" nin ne olduğunu anlıyorum, ancak "Tekrarlayan Takviye Öğrenme" nin ne olduğu hakkında fazla bilgi bulamadım.

Birisi bana "Tekrarlayan Takviye öğrenme" nedir ve "Tekrarlayan Takviye öğrenme" ile Q-Öğrenme algoritması gibi normal "Takviye öğrenme" arasındaki farkın ne olduğunu açıklayabilir.

machine-learning reinforcement-learning

— Negatif Sıfır
kaynak

15

"Tekrarlayan pekiştirici öğrenme" nedir?

Tekrarlayan pekiştirme öğrenimi ( RRL ) ilk olarak 1996 yılında sinir ağı ticaret sistemlerinin eğitimi için tanıtıldı. "Tekrarlayan" önceki çıktının girdinin bir parçası olarak modele verildiği anlamına gelir. Yakında bir FX piyasasında ticarete genişletildi.

RRL tekniği finansal işlem sistemleri kurmak için başarılı makine öğrenme tekniği olduğu tespit edilmiştir.

"Tekrarlayan pekiştirici öğrenme" ile normal "pekiştirici öğrenme" (Q-Learning algoritması gibi) arasındaki fark nedir?

Rrl açıkça yaklaşım farklıdır dinamik programlama ve takviye algoritmaları gibi TD-öğrenme ve S-öğrenme bir tahmini olarak, değer fonksiyonunu kontrol sorun.

RRL çerçeve basit ve zarif sorun gösterimini oluşturmak için izin verir, engeller boyutluluk Bellman lanetini ve verimlilik içinde tekliflerle zorlayıcı avantajları:

RRL , Q-öğrenmesindeki takdir yöntemine başvurmadan doğal olarak gerçek değerli eylemler (portföy ağırlıkları) üretir .

RRL , gürültülü veri kümelerine maruz kaldığında Q-öğrenmeye kıyasla daha kararlı bir performansa sahiptir . Q-öğrenme algoritması, dinamik optimizasyonun özyinelemeli özelliği nedeniyle değer işlevi seçimine (belki de) daha duyarlıdır; RRL algoritması ise nesnel işlev seçme ve hesaplama süresinden tasarruf etme konusunda daha esnektir.

İle RRL , ticaret sistemleri maksimize performans fonksiyonları ile optimize edilebilir, , örneğin "Sharpe oranı" gibi "kâr" (işlem maliyetleri düşüldükten sonra dönüş), "zenginlik", zenginlik veya riske göre ayarlanmış performans oranına faydalı işlevleri. $U( )$

Burada RRL algoritmasının bir Matlab uygulamasını bulacaksınız.

Referanslar

Ticaret için Takviye Öğrenimi

Ticaret Sistemleri ve Portfolyoları için Güçlendirme Öğrenimi

Tekrarlayan takviye öğrenimi ile döviz ticareti

Tekrarlayan Takviye Öğrenimi (RRL) ile Stok Ticaret

Q-Learning ve Tekrarlayan Takviye Öğrenimini Kullanarak Algoritma Ticareti

OTOMATİK FX TİCARET İÇİN ALGORİTMLERİ KEŞFEDİN - HİBRİT MODEL İNŞAATI

— Anton Danilov
kaynak

@AntonDanilov Bunun farkında olup olmadığınızdan emin değilim. Bu fikri ortaya çıkaran adam (ilk referansınız, J Moody) bu algoyu kullanarak bir fon işletiyor - ve performansı muhteşem olmaktan çok uzak.

— horaceT

Bilmek güzel ama changemy cevabı nasıl

— Anton Danilov

2

(Derin) Tekrarlayan RL'nin ayırt edici özelliği, ajan gözlemlerini çıktı eylemine eşleyen fonksiyonun Tekrarlayan Sinir Ağı olmasıdır.

Tekrarlayan bir Sinir Ağı, her bir gözlem için her şekilde aynı şekilde her bir gözlemi sırayla işleyen bir tür sinir ağıdır.

Orijinal belge: Kısmen Gözlenebilir MDP'ler için Derin Tekrarlayan Q-Learning

— LearnOPhile
kaynak