Layman'ın terimleriyle Thompson Sampling nedir?


14

Thompson Sampling'i ve nasıl çalıştığını anlayamıyorum . Multi Arm Bandit hakkında okuyordum ve Üst Güven Sınırlı Algoritmayı okuduktan sonra, birçok metin Thompson Sampling'in UCB'den daha iyi performans gösterdiğini öne sürdü. Layman'ın ya da basit bir ifadeyle Thompson Sampling nedir?

Daha fazla bilgi için referans makaleler sunmaktan çekinmeyin.

Yanıtlar:


9

Matematiği olmayan bir açıklama yapmaya çalışacağım. Bu cevabın bir kısmı , MAB problemleri ile ilgili başka bir soruya cevap verdiğim bazı noktalardan tekrarlanıyor .


Stratejik ticaret-off çoklu kol eşkıya sorunları: In çoklu kol eşkıya sorunlarının kumarbaz mermi belirli bir sayıda duyduğu toplam beklenen getiriyi maksimize etmek bir "eşkıya" Her turda ve girişimleri oynar. Haydutların her birinin beklenen dönüşü, problemdeki bazı bilinmeyen parametrelerle açıklanır ve böylece her turda daha fazla sonuç gözlemlediğimiz için, bu bilinmeyen parametreler ve dolayısıyla her bir haydutun beklenen dönüşü hakkında daha fazla bilgi alırız. . Her oyun turunda (sonuncusu hariç), MAB problemi kumarbaz tarafından iki hedef arasında stratejik bir denge içerir :

  • Acil ödüller: Her turda kendisine bu turda yüksek beklenen bir ödül veren bir dağıtım seçmek ister, bu da (şu anda) karşı karşıya olduğu dağıtımların tercihinin yüksek bir ortalama ödüle sahip olmasını gerektirir;

  • Gelecek ödüller (bilgi kazanımından etkilenir): Öte yandan, dağıtımlar hakkında daha fazla bilgi (özellikle diğerleri kadar oynamamış olanlar) kazanarak gerçek beklenen ödüller hakkındaki bilgisini geliştirmek istiyor. gelecek turlarda seçimlerini geliştirmek.

Bu iki şeyin göreli önemi ödünleşimi belirleyecek ve bu göreceli önem bir dizi faktörden etkilenecektir. Örneğin, problemde sadece az sayıda geri kalan tur varsa, gelecekteki denemeler için çıkarım nispeten daha az değerlidir, oysa çok sayıda kalan tur varsa, gelecekteki ödüller için çıkarım nispeten daha değerlidir. Bu yüzden kumarbazın, haydutların her birinin beklenen ödülünü belirleyen bilinmeyen parametreler hakkında daha fazla bilgi edinmek için mevcut turdaki anlık ödülleri en üst düzeye çıkarmaya ne kadar odaklanmak istediğini ve bundan ne kadar sapmak istediğini düşünmesi gerekiyor.


Thompson örneklemesi: Thompson örneklemesinin temel fikri, her turda, bilinmeyen parametreler hakkında posterior bir inanç biçimindeki makineler hakkındaki mevcut bilgilerimizi almamız ve bu posterior dağılımdaki parametreleri "örneklememiz" dir. Bu örneklenen parametre, her makine için bir dizi beklenen ödül verir ve şimdi bu örneklenen parametre altında beklenen en yüksek getiriye sahip olana bahis oynarız.

Prima facie , Thompson örnekleme şeması, her turda beklenen anında geri dönüşü en üst düzeye çıkarma girişimi içeriyor gibi görünüyor (çünkü parametreyi örnekledikten sonra bu maksimizasyon adımını içeriyor). Bununla birlikte, parametrenin posteriordan rastgele örneklenmesini içerdiğinden, şema örtük birmevcut ödülü en üst düzeye çıkarmanın, daha fazla bilgi aramanın varyasyonu. Çoğu zaman, posteriorun ana kısmında bir yerde bulunan bir "örnek" parametresi alırız ve makine seçimi, hemen ödülün kabaca maksimize edilmesini yaklaşık olarak tahmin eder. Bununla birlikte, bazen posterior dağılımın kuyruklarında olan bir parametre değerini rastgele örnekleyeceğiz ve bu durumda hemen ödülü en üst düzeye çıkarmayan bir makine seçeceğiz - yani, bu bir "arama" "gelecekteki ödüllere yardımcı olmak için.

Thompson şeması ayrıca, daha fazla bilgi edindikçe "aramamızı" azaltma eğiliminde olduğumuz hoş bir özelliğe sahiptir ve bu, daha fazla bilgi elde ettikçe aramalara daha az odaklanmak istediğimiz problemdeki arzu edilen stratejik değiş tokuşu taklit eder. Daha fazla tur oynadıkça ve daha fazla veri elde ettiğimizde, posterior gerçek parametre değerlerine yakınlaşır ve böylece Thompson şemasındaki rastgele "örnekleme", anında ödül. Bu nedenle, bu şemanın daha az bilgi ile daha "daha arama-odaklı" ve daha sonra çok fazla veri olduğunda daha az "arama-odaklı" olma örtülü bir eğilimi vardır.

Şimdi, bunu söyledikten sonra, Thompson örnekleme planının açık bir dezavantajı, MAB probleminde kalan tur sayısını dikkate almamasıdır. Bu şema bazen sonsuz turlu bir oyun temelinde formüle edilir ve bu durumda bu bir sorun değildir. Ancak, sonlu mermi olan MAB problemlerinde, gelecekteki mermi sayısı azaldıkça "aramayı" azaltmak için kalan mermi sayısını dikkate almak tercih edilir. (Ve özellikle, son turdaki en uygun oyun, aramaları tamamen görmezden gelmek ve sadece beklenen en yüksek posterior geri dönüşlü haydut üzerine bahis yapmaktır.) Thompson şeması bunu yapmaz, bu nedenle bir şekilde sonlu yuvarlak oyunlar oynayacak bu bazı durumlarda açıkça en uygun olanıdır.


1
Keşke bu yanıtı birden fazla başparmak verebilsem. Muhtemelen posteriorları nasıl güncelleyeceğimi ekleyeceğim - örneğin posteriorlar normal dağılımlar olarak gösterildiyse - posteriorların ortalama ve standart sapması için güncellemeler nasıl hesaplanır. Bunu söylüyorum çünkü kendimi tanımıyorum
Mellow

5

Bir şans vereceğim ve umarım beğenirsin! Aşağıda sizi korkutabilecek bazı formüller var. Umarım, çünkü bunları en basit şekilde açıklamak için elimden geleni yapacağım.

Bunlar iki formüldür:

  • Olasılık:P(r|θ,a,x)
  • Ve arka:P(θ|D)

TL; DR

Thompson Sampling size

  1. Mümkün olduğunu düşündüğünüz tüm model parametrelerinden rastgele bir model parametresi seçin.
  2. Söz konusu model parametresine göre bir kez hareket edin.
  3. Söz konusu model parametresiyle aldığınız ödülü izleyin.
  4. Bu yeni deneyimden bilgi edinin ve olası model parametreleri hakkındaki inancınızı güncelleyin.

Olasılık??

Olasılık, olayların ne kadar olası olduğunu tanımlayan bir şeydir . Bu durumda, olasılık bağlamında eylemi oynarsanız ödül almanın ne kadar olası olduğunu söyler . Örneğin, yağmur yağıyorsa (bağlam!) Ve bir şemsiye (eylem!) Alırsanız kuru kalırsınız (ödül! :)). Öte yandan, eğer yağmur yağılamıyorsa (bağlam!) Ve bir şemsiye (eylem!) Alıyorsanız, ekstra ağırlık (negatif ödül! :() taşımalısınız. Olasılıkla ilgili her şeyi biliyorsanız, optimum hareket etmek kolaydır.a xrax

O tuhaf çembere ne dersin?

Fark etmiş olabileceğiniz gibi , teta adı verilen garip daire hakkında hiçbir şey yazmadım. (Matematikçiler, hangi harflerin Yunan harfleri vererek en zor olduğunu belirleme alışkanlığına sahiptir, bu da anlaşılmasını zorlaştırır). Bu model parametresini temsil eder. Bu parametreler, bağlam + eylemler ile ödül arasındaki ilişki daha zor olduğunda kullanılır. Örneğin, bir model parametresi, başınızın üstüne 1 mm yağmur yağarsa ödülünüzün ne kadar düştüğü olabilir. Başka bir model parametresi, bir şemsiye alırsanız ödülünüzün ne kadar düştüğünü belirtebilir. Sadece olasılığın anlamak istediğiniz ana şey olduğunu söyledim; ve büyük olasılıkla model parametrelerdir. Model parametrelerini biliyorsanızθ θθθθ, bağlam + eylemlerin ödülle nasıl bir ilişkisi olduğunu bilirsiniz ve en uygun şekilde hareket etmek kolaydır.

Peki maksimum ödül alabilmem için bu model parametrelerini nasıl tanıyabiliriz?

Çok kollu haydut sorununun temel sorusu budur. Aslında iki kısmı var. Farklı bağlamlardaki tüm farklı eylem türlerini keşfederek model parametrelerini tam olarak tanımak istiyorsunuz. Ancak, belirli bir bağlam için hangi eylemin iyi olduğunu zaten biliyorsanız, bu eylemden yararlanmak ve mümkün olduğunca çok ödül almak istersiniz. Bu nedenle, model parametrelerinizden emin değilseniz ekstra bazı keşifler yapmak isteyebilirsiniz. Model parametrelerimiz oldukça eminseniz, hangi eylemin gerçekleştirileceğinden de eminiz. Bu, keşif ve sömürü dengesine karşı keşif olarak bilinir.θθθ

Bu posterior hakkında hiçbir şey söylemedin

Bu en uygun davranışın anahtarı, model parametreleri hakkındaki . Ve posterior tam olarak şunu söylüyor: Önceki bağlamlarda önceki eylemlerden aldığımız önceki tüm ödüller göz önüne alındığında, hakkında ne biliyorsunuz . Örneğin, hiç dışarı çıkmadıysanız, yağmur başınıza düştüğünde ne kadar mutsuz olduğunuzu bilmiyorsunuz. Başka bir deyişle, yağmurda kafadaki mutsuzluk modeli parametresinden çok emin değilsiniz. Bazen yağmur altında, şemsiye ile veya şemsiye olmadan olduysanız, bu belirsiz model parametresi hakkında bir şeyler öğrenmeye başlayabilirsiniz.θθθ

Şimdi Thomson Sampling tüm bu belirsizlikler ile ne öneriyor?

Thomson Sampling çok basit bir şey öneriyor: sadece posterinizden rastgele bir model parametresi seçin, bir işlem yapın ve neler olduğunu gözlemleyin. Örneğin, daha önce hiç dışarı çıkmadığınızda, yağmurda ne zaman mutsuzluk parametresi herhangi bir şey olabilir. Bu yüzden sadece birini seçiyoruz, yağmur başımıza düştüğünde gerçekten mutsuz olduğumuzu varsayıyoruz. Yağmur yağdığını görüyoruz (bağlam), bu yüzden bir şemsiye (eylem) alıyoruz çünkü model parametreniz bize maksimum ödülü nasıl alabileceğimizi söylüyor. Ve gerçekten, bir şemsiye ile yağmurda yürümek biraz huysuz olduğunu gözlemliyorsunuz ama gerçekten mutsuz değil. Bundan yağmur + şemsiyenin huysuz olduğunu öğreniyoruz. Bir daha yağmur yağdığında, tekrar başınıza yağmur yağdığında ne olacağına dair rastgele bir inanç seçersiniz. Bu sefer sizi hiç rahatsız etmiyor olabilir. Ancak, gideceğiniz yere yarım kaldıktan sonra ıslanırsınız ve şemsiyesiz yağmurun gerçekten çok kötü olduğunu öğrenirsiniz. Bu, yağmurdayken mutsuzluk konusundaki belirsizliğinizi azaltır, çünkü şimdi muhtemelen yüksek olduğunu biliyorsunuz.

Bu çok basit geliyor !!

Evet, o kadar karmaşık değil. Zor kısım arka model parametresinden örnekleme yapmaktır. Tüm model parametreleriniz üzerinde bir dağılım elde etmek ve sürdürmek, bu da sizin özel probleminiz için de uygundur. Ama ... kesinlikle yapılabilir :).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.