Takviye öğrenimi zaman serisi tahmini için uygulanabilir mi?


Yanıtlar:


10

Evet, ancak tahminler ve sistemin devam eden davranışı arasında önemli bir geri bildirim yoksa, genel olarak görev için iyi bir araç değildir.

Bir RL tahmini veya kontrol algoritması kullanmaya değer olduğu bir takviye öğrenme (RL) problemi oluşturmak için bazı bileşenleri tanımlamanız gerekir:

  • Bir dizi halinde ölçülebilen / gözlemlenebilen birçok durumdan birinde bulunan bir ortam .

  • Bir ajan akımı gözlemleyebilirsiniz devlet ve almak eylemlerini aynı sırada.

  • Sekanstaki devletin evrimi , mevcut durumun ve alınan eylemin bir kombinasyonuna bağlı olmalıdır ve ayrıca stokastik olabilir.

  • RL ajanının gözlemleyebileceği veya ölçebileceği bir ödül sinyali olmalıdır . Değeri ödül devletin evrimi ile aynı faktöre bağlıdır, ancak farklı bir şekilde onlara bağlı olabilir.

Zaman serisi tahmini genel durumu, öngörüye bir eylem olarak muamele edilerek, devlet evriminin sadece mevcut duruma (artı rastgelelik) ve devlet ve eyleme dayalı ödüle bağlı olmasıyla buna uyacak şekilde yapılabilir. Bu, RL'nin uygulanmasına izin verecektir, ancak nedensellik yalnızca bir yoldan akar - ortamdan tahmin modelinize. Bu nedenle, örneğin ödüller için yapabileceğiniz en iyi şey, tahminlerin doğruluğu hakkında bazı metrikler kullanmaktır. İyi ya da kötü tahminlerin sonuçları orijinal ortamı etkilemez. Esasen, bir RL katmanındaki dizi (sinir ağı gibi) için bir tahmini modelin, denetlenen bir öğrenme problemi için temel veri seti işlemesi ile kolayca değiştirilebileceği sonucuna varacaksınız.

Eğer bir yolu olabilir anlamlı RL sorunlarla serisi öngörü sorunları uzatmak tahminler temelinde bulunulan kararlar ve bu kararların etkilenen sistem durumunu içerecek şekilde çevre kapsamını artırmaktır. Örneğin, hisse senedi fiyatlarını tahmin ediyorsanız, portföyünüzü ve fonlarınızı eyalete ekleyin. Aynı şekilde, eylemler tahmin olmayı, alım satım komutları olmayı durdurur. Bu, fiyat tahmini bileşenini iyileştirmeyecektir (ve muhtemelen daha uygun araçlar (örn. LSTM kullanarak) ayrı bir sorun olarak ele almanız daha iyi olacaktır, ancak sorunu genel olarak bir RL sorunu olarak çerçeveleyecektir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.