İşbirlikli Takviye Öğrenme

10

Geliri en üst düzeye çıkarmak için dinamik bir fiyatlandırma sorunu üzerinde çalışan tek bir aracı için zaten işleyen bir uygulamam var. Bununla birlikte çalıştığım sorun, birbirlerinin yerini alan birkaç farklı ürünü içeriyor, bu yüzden hepsini bağımsız öğrencilerle dinamik olarak fiyatlandırmak yanlış görünüyor, çünkü birinin fiyatı diğerinin ödülünü etkiliyor. Amaç, her bir gelirin toplamını en üst düzeye çıkarmak için hepsini dinamik olarak fiyatlandırmak olacaktır. $Q(\lambda)$

Bu şekilde takviye öğrenimini uygulayan bir şey bulmaya çalışmak için biraz araştırma yapıyorum, ancak bulduğum birçok çok ajanlı uygulama kooperatiften daha rekabetçi oyunlara odaklanıyor ya da diğer ajanların eksik bilgisini varsayarlar (tam olurdu bu senaryodaki her temsilcinin bilgisi). Bu şekilde işbirlikli öğrenmenin iyi araştırılmış / belgelenmiş uygulamaları var mı?

machine-learning reinforcement-learning

— user3704120
kaynak

1

Bu kağıda bakabilirsiniz. İlki görevinizle oldukça ilgili.
http://icamt2016.org/papers/SS-LTMLBDA-06-05.pdf http://researcher.watson.ibm.com/researcher/files/us-kephart/icml00_qrt.pdf

— Prayalankar
kaynak

0

Sonuçta, ulaşmaya çalıştığınız şey Pareto verimliliği.

İşbirliği yapmak için, tüm oyuncular tarafından paylaşılan tek bir ödül işlevi tanımlamanız gerekir (bu, bireysel ödül işlevlerini bir şekilde birleştiren bir işlev olabilir).

Her nasılsa, bir üründen aldığınız ödülleri diğerlerine göre ağırlıklandırmanız gerekir.

— Juan Leni
kaynak