UCB ist in der Tat im stochastischen Fall nahezu optimal (bis zu einem log T-Faktor für ein T-Runden-Spiel) und bis zu einer Lücke in der Pinsker-Ungleichung in einem problemabhängigeren Sinne. Die jüngste Veröffentlichung von Audibert und Bubeck beseitigt diese logarithmische Abhängigkeit im schlimmsten Fall, hat jedoch im günstigen Fall eine schlechtere Schranke, wenn verschiedene Waffen gut getrennte Belohnungen haben.
Im Allgemeinen ist UCB ein Kandidat aus einer größeren Familie von Algorithmen. Zu jedem Zeitpunkt im Spiel können Sie alle Arme anzeigen, die nicht "disqualifiziert" sind, dh deren obere Vertrauensgrenze nicht kleiner ist als die untere Vertrauensgrenze eines Arms. Die Auswahl auf der Grundlage einer Verteilung solcher qualifizierter Waffen stellt eine gültige Strategie dar und wird bis hin zu Konstanten ähnlich bedauert.
Empirisch glaube ich nicht, dass es eine signifikante Bewertung vieler verschiedener Strategien gegeben hat, aber ich denke, dass UCB oft recht gut ist.
Die meisten neueren Forschungen haben sich darauf konzentriert, Banditenprobleme über die einfache K-bewaffnete Situation hinaus mit stochastischen Belohnungen auf sehr große (oder unendliche) Aktionsräume mit oder ohne Nebeninformationen und unter stochastischem oder kontroversem Feedback auszudehnen. Es wurde auch in Szenarien gearbeitet, in denen sich die Leistungskriterien unterscheiden (z. B. nur die Ermittlung des besten Arms).