UCB, stokastik durumda (optimal bir T turu oyunu için log T faktörüne kadar) ve Pinsker'in eşitsizliğinde daha fazla soruna bağlı bir anlamda bir boşluk kadardır. Audibert ve Bubeck'in son makalesi, en kötü durumda bu kütük bağımlılığını ortadan kaldırıyor, ancak farklı silahların birbirinden ayrı ödülleri kazandığında, olumlu durumda daha da kötü bir bağı var.
Genel olarak, UCB daha geniş bir algoritma ailesinden bir adaydır. Oyunun herhangi bir noktasında, "diskalifiye edilmemiş" tüm kollara bakabilirsiniz, yani üst güven sınırı, bazı kolların güvenliğinden daha düşük değildir. Bu tür nitelikli silahların herhangi bir dağılımına dayanarak toplama geçerli bir strateji oluşturur ve sabitlere benzer bir pişmanlık duyar.
Ampirik olarak, birçok farklı stratejinin önemli bir değerlendirmesi olduğunu düşünmüyorum, ancak UCB'nin genellikle oldukça iyi olduğunu düşünüyorum.
Daha yakın tarihli araştırmaların çoğu haydut sorunlarını, stokastik ödüller içeren basit K-silahlı ortamın ötesine, yan bilgi içeren veya olmayan, çok büyük (veya sonsuz) eylem alanlarına, yan bilgi içeren ya da olumsuz geri bildirim altında bulmaya odaklanmıştır. Performans kriterlerinin farklı olduğu senaryolarda da çalışmalar yapıldı (sadece en iyi kolun tanımlanması gibi).