Ich habe über eine Reihe von Algorithmen zur Lösung von Problemen mit n-bewaffneten Banditen wie -greedy, Softmax und UCB1 gelesen, habe jedoch einige Probleme, herauszufinden, welcher Ansatz zur Minimierung von Bedauern am besten geeignet ist.
Gibt es einen bekannten optimalen Algorithmus zur Lösung des n-bewaffneten Banditenproblems? Gibt es eine Auswahl an Algorithmen, die in der Praxis am besten zu funktionieren scheinen?
Antworten:
Hier sind zwei Umfragepapiere, die ich kürzlich gefunden habe. Ich habe sie noch nicht gelesen, aber die Abstracts klingen vielversprechend.
Joanns Vermorel und Mehryar Mohri: Mehrarmige Banditenalgorithmen und empirische Bewertung (2005)
Aus dem Abstract:
Volodymyr Kuleshov und Doina Precup: Algorithmen für das mehrarmige Banditenproblem (2000) Aus dem Abstract:
quelle