Ich arbeite an einem mehrarmigen Banditenproblem, bei dem wir keine Informationen über die Belohnungsverteilung haben.
Ich habe viele Artikel gefunden, die bedauernde Grenzen für eine Verteilung mit bekannter Bindung und für allgemeine Verteilungen mit Unterstützung in [0,1] garantieren.
Ich möchte herausfinden, ob es eine Möglichkeit gibt, in einer Umgebung, in der die Belohnungsverteilung keine Garantie für ihre Unterstützung bietet, gute Leistungen zu erbringen. Ich versuche, eine nichtparametrische Toleranzgrenze zu berechnen und diese Zahl zum Skalieren der Belohnungsverteilung zu verwenden, damit ich den in diesem Dokument angegebenen Algorithmus 2 verwenden kann ( http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf) ). Glaubt jemand, dass dieser Ansatz funktionieren wird?
Wenn nicht, kann mich jemand auf die richtige Stelle hinweisen?
Vielen Dank!