Genel ödül dağıtımı için çok kollu haydut


11

Ödül dağılımı hakkında herhangi bir bilgimizin olmadığı çok kollu bir haydut sorunu üzerinde çalışıyorum.

Bilinen bağlı bir dağıtım ve destekli genel dağıtımlar için pişmanlık sınırlarını garanti eden birçok makale buldum [0,1].

Ödül dağıtımının desteği konusunda garantisi olmayan bir ortamda iyi performans göstermenin bir yolu olup olmadığını öğrenmek istiyorum. Parametrik olmayan bir tolerans sınırı hesaplamaya çalışıyorum ve bu sayıyı bu makalede belirtilen algoritma 2'yi kullanabilmek için ödül dağılımını ölçeklendirmek için kullanıyorum ( http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf ). Herkes bu yaklaşımın işe yarayacağını düşünüyor mu?

Değilse, kimse beni doğru noktaya yönlendirebilir mi?

Çok teşekkürler!

Yanıtlar:


6

MAB algoritmalarına yönelik araştırma, teorik performans garantileri ile yakından bağlantılıdır. Gerçekten de, sadece gerçekten Auer 2002 kağıt ispatlama beri oldu bu algoritmaların (hatırlama Thompson örneklemesi 30s önerilmiştir) içine ilginin yeniden dirilişi çeşitli UCB pişmanlık sınırları ve -greedy algoritmaları. Bu nedenle, ödül dağılımının bilinen bir sınırı olmadığı sorunlara çok az ilgi vardır, çünkü teorik olarak söylenebilecek neredeyse hiçbir şey yoktur.O(log(T))ϵ

Bahsettiğiniz basit Thompson örnekleme algoritması bile Bernoulli dağıtılmış ödüller gerektirir ve bu bile logaritmik bir pişmanlık bağlı olduğunu kanıtlamak için 80 yıl sürdü!

Bununla birlikte, pratikte, kesin olarak ödül dağılımını bilmediğiniz durumlarda, çok sayıda bölerek bunu ölçeklendirebilirsiniz ve eğer üzerinde bir ödül gözlemlerseniz , . Yine de bu yaklaşımı kullanan pişmanlık garantisi yoktur, ancak genellikle oldukça iyi çalışır.[0,1]SSS:=2S

Ayrıca, bahsettiğiniz Thompson örnekleme algoritmasının Bernoulli denemelerine ihtiyacı vardır, bu nedenle keyfi sürekli ödüller kullanamazsınız. Beta yerine Gauss posterior dağılımını sığdırabilirsiniz, ancak bu, önceki seçiminize biraz duyarlıdır, bu yüzden çok düz olmasını isteyebilirsiniz. Uygulamanız hakkında bir şey kanıtlamak istemiyorsanız, bu muhtemelen oldukça iyi sonuç verecektir.


1
Yanıt için çok teşekkürler! Gerçekten onu takdir ederim! Yine de bir sorum vardı. Sanırım kağıt üzerinde algoritma 2 (sayfa 39.4'ün üstünde) ödül dağıtımı hakkında hiçbir şey gerektirmez, ancak desteğinin [0,1] olduğu gerçeği. Belki algoritma 1'e bakıyordun?
konuk

Evet, harika, gerçek değerleri Bernoulli örneklerine dönüştürmek için oldukça ilginç bir numara, detayın beni kaçtığına işaret ettiğin için teşekkürler. Her durumda, dediğin gibi, hala sınırlı değişkenlere ihtiyacınız var, bunu bahsettiğim ucuz çift hile ile yapabilir ve Thompson örneklemesinin bu sürümünü kullanabilirsiniz. Ancak Gauss posterior kullanan bir yöntem formüle etmek daha iyi olabilir.
fairidox

Gauss posterior yöntemine daha fazla bakacağım, ama Gaussian açısından "düz" ile ne demek istiyorsun? Daha önce Beta (1,1) (üniform) gibi bir şeye karşılık geleceğini düşünürdüm, doğru mu?
konuk

ancak sınırsız bir alan adından önce tek tip bir üniformanız olamaz. Dolayısıyla, bir Gauss posterior modeliniz varsa, daha önce bir Gaussianınız olacaktır, bu nedenle genellikle mümkün olduğunca "düz" veya bilgilendirici olmak istemezsiniz. Bu genellikle varyansı dayanabildiğiniz kadar büyütmek anlamına gelir. Uzman değilim ama içine bakmak isteyebileceğiniz, bilgilendirici olmayan ve potansiyel olarak uygunsuz olanları nasıl oluşturacağınız konusunda kapsamlı bir çalışma alanı var. Ayrıca, kesinlikle olumlu ödülleriniz varsa farklı bir model düşünebilirsiniz.
fairidox
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.