En iyi haydut algoritması?


Yanıtlar:


25

NIPS 2011'den bir makale ("Thompson Sampling'in ampirik bir değerlendirmesi"), deneylerde, Thompson Sampling'in UCB'yi attığını göstermektedir. UCB, iyimser varsayımlar altında en yüksek ödülü vaat eden kolu seçmeye dayanmaktadır (yani, beklenen ödüllendirmeyle ilgili tahmininizin varyansı yüksektir, bu nedenle bunu iyi bilmediğiniz kolları çekersiniz). O: Bunun yerine, Thompson Örnekleme tamamen Bayes olduğunu üretir bir arka dağılımından (yani bir vektör beklenen ödülleri) bir eşkıya yapılandırmasını ve bu doğru yapılandırma (yani en yüksek beklenen ödül ile kolunu çeker) sanki o davranır.

Bayes Kontrol Kuralı (" Öğrenme ve Oyunculuk İçin Asgari Bir Bağıl Entropi Prensibi ", JAIR), Thompson Sampling'in genelleştirilmesi, Thompson Sampling'in bilgi teorik ilkelerinden ve nedensellikten türemiştir. Özellikle, Bayesian Kontrol Kuralının, stratejiniz ile (bilinmeyen) en uygun strateji arasındaki KL'yi minimize etmek istediğinizde ve nedensel kısıtlamaları göz önünde bulundurduğunuzda optimum strateji olduğu gösterilmiştir. Bunun önemli olmasının nedeni, bunun Bayesian çıkarımının eylemlere bir uzantısı olarak görülebilir olmasıdır: Performans kriteriniz tahmin ediciniz ile (bilinmeyen) gerçek dağılım arasındaki KL ise, Bayesian çıkarımının en uygun tahmin stratejisi olduğu gösterilebilir.


16

UCB, stokastik durumda (optimal bir T turu oyunu için log T faktörüne kadar) ve Pinsker'in eşitsizliğinde daha fazla soruna bağlı bir anlamda bir boşluk kadardır. Audibert ve Bubeck'in son makalesi, en kötü durumda bu kütük bağımlılığını ortadan kaldırıyor, ancak farklı silahların birbirinden ayrı ödülleri kazandığında, olumlu durumda daha da kötü bir bağı var.

Genel olarak, UCB daha geniş bir algoritma ailesinden bir adaydır. Oyunun herhangi bir noktasında, "diskalifiye edilmemiş" tüm kollara bakabilirsiniz, yani üst güven sınırı, bazı kolların güvenliğinden daha düşük değildir. Bu tür nitelikli silahların herhangi bir dağılımına dayanarak toplama geçerli bir strateji oluşturur ve sabitlere benzer bir pişmanlık duyar.

Ampirik olarak, birçok farklı stratejinin önemli bir değerlendirmesi olduğunu düşünmüyorum, ancak UCB'nin genellikle oldukça iyi olduğunu düşünüyorum.

Daha yakın tarihli araştırmaların çoğu haydut sorunlarını, stokastik ödüller içeren basit K-silahlı ortamın ötesine, yan bilgi içeren veya olmayan, çok büyük (veya sonsuz) eylem alanlarına, yan bilgi içeren ya da olumsuz geri bildirim altında bulmaya odaklanmıştır. Performans kriterlerinin farklı olduğu senaryolarda da çalışmalar yapıldı (sadece en iyi kolun tanımlanması gibi).


4

Sanatın şu andaki durumu şöyle özetlenebilir:

  • stokastik: UCB ve değişkenler ( pişmanlık )R,T=O(KgünlükTΔ)
  • çekişmeli: EXP3 ve değişkenler ( pişman )R,~T=O(TKgünlükK)
  • bağlamsal: karmaşık

ile mermi sayısı, kol sayısı, en iyi ve en iyi ikinci kolun (boşluk) arasında gerçek bir fark vardır.TKΔ

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.