Bir şans vereceğim ve umarım beğenirsin! Aşağıda sizi korkutabilecek bazı formüller var. Umarım, çünkü bunları en basit şekilde açıklamak için elimden geleni yapacağım.
Bunlar iki formüldür:
- Olasılık:P(r|θ,a,x)
- Ve arka:P(θ|D)
TL; DR
Thompson Sampling size
- Mümkün olduğunu düşündüğünüz tüm model parametrelerinden rastgele bir model parametresi seçin.
- Söz konusu model parametresine göre bir kez hareket edin.
- Söz konusu model parametresiyle aldığınız ödülü izleyin.
- Bu yeni deneyimden bilgi edinin ve olası model parametreleri hakkındaki inancınızı güncelleyin.
Olasılık??
Olasılık, olayların ne kadar olası olduğunu tanımlayan bir şeydir . Bu durumda, olasılık bağlamında eylemi oynarsanız ödül almanın ne kadar olası olduğunu söyler . Örneğin, yağmur yağıyorsa (bağlam!) Ve bir şemsiye (eylem!) Alırsanız kuru kalırsınız (ödül! :)). Öte yandan, eğer yağmur yağılamıyorsa (bağlam!) Ve bir şemsiye (eylem!) Alıyorsanız, ekstra ağırlık (negatif ödül! :() taşımalısınız. Olasılıkla ilgili her şeyi biliyorsanız, optimum hareket etmek kolaydır.a xrax
O tuhaf çembere ne dersin?
Fark etmiş olabileceğiniz gibi , teta adı verilen garip daire hakkında hiçbir şey yazmadım. (Matematikçiler, hangi harflerin Yunan harfleri vererek en zor olduğunu belirleme alışkanlığına sahiptir, bu da anlaşılmasını zorlaştırır). Bu model parametresini temsil eder. Bu parametreler, bağlam + eylemler ile ödül arasındaki ilişki daha zor olduğunda kullanılır. Örneğin, bir model parametresi, başınızın üstüne 1 mm yağmur yağarsa ödülünüzün ne kadar düştüğü olabilir. Başka bir model parametresi, bir şemsiye alırsanız ödülünüzün ne kadar düştüğünü belirtebilir. Sadece olasılığın anlamak istediğiniz ana şey olduğunu söyledim; ve büyük olasılıkla model parametrelerdir. Model parametrelerini biliyorsanızθ θθθθ, bağlam + eylemlerin ödülle nasıl bir ilişkisi olduğunu bilirsiniz ve en uygun şekilde hareket etmek kolaydır.
Peki maksimum ödül alabilmem için bu model parametrelerini nasıl tanıyabiliriz?
Çok kollu haydut sorununun temel sorusu budur. Aslında iki kısmı var. Farklı bağlamlardaki tüm farklı eylem türlerini keşfederek model parametrelerini tam olarak tanımak istiyorsunuz. Ancak, belirli bir bağlam için hangi eylemin iyi olduğunu zaten biliyorsanız, bu eylemden yararlanmak ve mümkün olduğunca çok ödül almak istersiniz. Bu nedenle, model parametrelerinizden emin değilseniz ekstra bazı keşifler yapmak isteyebilirsiniz. Model parametrelerimiz oldukça eminseniz, hangi eylemin gerçekleştirileceğinden de eminiz. Bu, keşif ve sömürü dengesine karşı keşif olarak bilinir.θθθ
Bu posterior hakkında hiçbir şey söylemedin
Bu en uygun davranışın anahtarı, model parametreleri hakkındaki . Ve posterior tam olarak şunu söylüyor: Önceki bağlamlarda önceki eylemlerden aldığımız önceki tüm ödüller göz önüne alındığında, hakkında ne biliyorsunuz . Örneğin, hiç dışarı çıkmadıysanız, yağmur başınıza düştüğünde ne kadar mutsuz olduğunuzu bilmiyorsunuz. Başka bir deyişle, yağmurda kafadaki mutsuzluk modeli parametresinden çok emin değilsiniz. Bazen yağmur altında, şemsiye ile veya şemsiye olmadan olduysanız, bu belirsiz model parametresi hakkında bir şeyler öğrenmeye başlayabilirsiniz.θθθ
Şimdi Thomson Sampling tüm bu belirsizlikler ile ne öneriyor?
Thomson Sampling çok basit bir şey öneriyor: sadece posterinizden rastgele bir model parametresi seçin, bir işlem yapın ve neler olduğunu gözlemleyin. Örneğin, daha önce hiç dışarı çıkmadığınızda, yağmurda ne zaman mutsuzluk parametresi herhangi bir şey olabilir. Bu yüzden sadece birini seçiyoruz, yağmur başımıza düştüğünde gerçekten mutsuz olduğumuzu varsayıyoruz. Yağmur yağdığını görüyoruz (bağlam), bu yüzden bir şemsiye (eylem) alıyoruz çünkü model parametreniz bize maksimum ödülü nasıl alabileceğimizi söylüyor. Ve gerçekten, bir şemsiye ile yağmurda yürümek biraz huysuz olduğunu gözlemliyorsunuz ama gerçekten mutsuz değil. Bundan yağmur + şemsiyenin huysuz olduğunu öğreniyoruz. Bir daha yağmur yağdığında, tekrar başınıza yağmur yağdığında ne olacağına dair rastgele bir inanç seçersiniz. Bu sefer sizi hiç rahatsız etmiyor olabilir. Ancak, gideceğiniz yere yarım kaldıktan sonra ıslanırsınız ve şemsiyesiz yağmurun gerçekten çok kötü olduğunu öğrenirsiniz. Bu, yağmurdayken mutsuzluk konusundaki belirsizliğinizi azaltır, çünkü şimdi muhtemelen yüksek olduğunu biliyorsunuz.
Bu çok basit geliyor !!
Evet, o kadar karmaşık değil. Zor kısım arka model parametresinden örnekleme yapmaktır. Tüm model parametreleriniz üzerinde bir dağılım elde etmek ve sürdürmek, bu da sizin özel probleminiz için de uygundur. Ama ... kesinlikle yapılabilir :).